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Bill Karwin ”作为 软件 工程 师 、 咨 询 师 和 管理 者 ， 他 
在 20 年 间 开 发 并 支持 了 各 种 各 样 的 应 用 、 程 序 库 以 及 
服务 器 ， 如 PHP 5 的 Zend Framework、Interbase 关 系 
型 数据 库 ， 以 及 Enhydra Java 应 用 服务 器 等 。 他 一 直 
无 私 地 分 享 他 的 专业 知识 ， 来 帮助 其 他 程序 员 提 高 效 
率 ， 获 得 成 功 。 他 和 曾 以 各 种 方式 回答 了 上 和 干 个 关于 SQL 
的 疑问 ， 其 中 不 乏 一 些 严重 但 又 经 常 被 忽略 的 问题 。 









谭 振 林 {http:iiweibo.comithinhunan ) ， 资 深 研发 
人 员 ， 曾 连任 五 届 微 软 最 有 价值 专家 ， 出 版 多 本 专业 译 
著 ， 目前 担任 产品 总 监 ， 在 互联 网 产品 路 上 孜孜 探索 。 


Push Chen 专注 于 大 数据 量 分 布 式 存储 及 缓存 的 后 
台 服 务 设计 与 开发 ， 现 任职 于 盛大 在 线 推 他 项 目 组 。 
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内 容 提 要 
本 书 是 一 本 广 受 好 评 的 SQL 图 书 。 它 介绍 了 如 何 避 免 在 SQL 的 使 用 和 开发 中 陶 入 一 些 第 见 却 经 党 被 
忽略 的 误区 。 它 通过 讲述 各 种 具体 的 案例 ， 以 及 开发 人 员 和 使 用 人 员 在 面 对 这 些 案例 时 经 常 采 用 的 错误 解 
决 方案 ， 来 介绍 如 何 识别 、 利 用 这 些 陷阱 ， 以 及 面 对 问 题 时 正确 的 解决 手段 。 男 外 ， 本 书 还 涉及 了 SQL 
的 各 级 范式 和 针对 它们 的 正确 理解 。 
本 书 适 合 SQL 数据 库 开 发 人 员 与 管理 人 员 阅 读 。 
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该 者 感言 


对 于 经 第 磁 到 本 书 中 表述 的 那些 数据 库 设 计 决 择 的 软件 开发 人 员 来 说 , 这 本 书 是 必 读 的 。 
为 它 将 帮助 开发 团队 理解 数据 库 设 计 达 成 的 结 末 ,并 且 基 于 实际 的 需求 、 预 期 、 神 定做 出 最 合理 
的 决定 。 








Darby Felton，DevBots Software Development 的 联合 创始 人 


我 非 第 喜欢 Bi 在 书 中 采用 的 写作 方式 ， 展 示 了 他 独一无二 的 风格 和 幽默 感 ， 这 对 讨论 一 大 
堆 枯燥 的 话题 太 重要 了 。Bi 记 成 功 运用 了 一 种 很 好 的 表述 方式 ， 让 技术 以 多 于 理解 的 面貌 示人 ， 
而 且 便于 以 后 查阅 。 简 而 言 之 ， 这 将 是 你 书架 里 又 一 极 好 的 资源 。 








Arjen Lentz, Open Query 
(http://openquery.com) 执行 总 监 ， 
High Performance MySOL 第 二 版 作者 之 一 


对 于 有 SQL 基础 ， 但 是 在 为 项 目 设 计 SQL 数据 库 时 希望 寻求 基础 之 外 帮助 的 软件 工程 师 来 
说 ， 这 本 书 尤其 有 用 。 





Liz Neely， 资 深 数据 库 程 序 员 


Bill 捕捉 到 了 我 们 在 SQL 不 同方 面 磁 到 过 的 很 多 陷阱 的 关键 所 在 ， 而 我 们 有 些 时 候 甚 至 没 
有 意识 到 已 被 困 住 了 。Bil 的 反 模 式 涵 盖 从 “不 敢 相 信 我 又 犯 了 一 过 ”的 事后 感叹 ， 到 了 最 佳 方案 
与 伴 你 一 路 走 来 的 SQL 教条 相左 的 诡异 情况 。 这 是 一 本 对 SQL 骨灰 和 新 手 都 不 错 的 书 。 








Danny Thorpe, 
Microsoft 总 工程 师 ; 
Delphi Component Design 作者 
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译 者 序 一 


党 无 斤 问 ， 数 据 库 领域 当下 最 热门 的 概念 是 NoSQL， 我 正在 公司 最 新 大 型 社区 项 目 中 实践 
NoSQL 产品 ， 并 准备 在 更 大 范围 内 推广 优秀 的 NoSQL 产品 ， 而 另 一 译 者 一 一 陈 魏 明 ， 则 目 己 研 
发 了 一 个 NoSQL 产品 ， 应 用 在 另 一 大 型 社区 项 目 中 ， 提 供 Feed 系统 的 支持 。 


但 是 ， 正 如 NoSQL 目 身 所 宣扬 的 一 样 ， 任 何 一 种 NoSQL 产品 ， 莫 至 所 有 的 NoSQL 产品 合 
在 一 起 , 它们 的 设计 切 训 绝 不 是 解决 择 所 有 的 数据 处 理 需 求 ， 它们 垦 求 的 是 为 菜 一 种 或 条 儿 种 数 
据 处 理 场 景 选择 最 优 的 CAP 组合， 提供 最 合适 的 解决 方案 。 


因此 ，SQL 并 没有 因为 NoSQL 的 流行 而 变 得 不 重要 ， 它 仍然 跟 以 前 一 样 重要 ， 并 且 因 为 它 
长 期 以 来 在 开发 人 员 中 建立 的 深厚 基础 ， 以 及 丰富 的 文 持 工具 ,特别 是 强大 的 查询 功能 ,将 使 其 
长 期 在 广泛 的 数据 处 理 场景 中 作为 主要 的 解决 方案 而 存在 。 比 如 你 总 不 能 用 Redis 来 处 理 运营 团 
队 天 天 变 着 戏法 要 的 运 介 分 析 数 据 吧 。 

这 本 语言 略 显 鹃 唆 的 书 ,， 是 一 本 非常 实用 的 书 ， 因 为 它 每 一 半 有 的 内 容 邦 源 目 于 最 剃 见 、 最 普 
通 的 SQL 应 用 场景 ,每 一 草 中 描述 的 问题 ， 都 是 全 世界 的 SQL 应 用 人 员 犯 得 最 多 的 错误 。 总 之 ， 
我 译 完 这 本 书后 ， 就 有 一 个 强烈 的 感触 :“ 原 来 我 犯 了 这 么 多 错误 1” 

所 以 , 这 本 书 中 的 知识 与 教训 ， 应 该 对 很 多 人 比 我 资 浅 的 那 一 小 部 分 人 和 比 我 资深 的 那 一 
大 部 分 人 ) 部 有 帮助 ， 而 且 长 期 有 效 。 

本 书 作者 知识 渊博 ， 原 作 中 不 少 地 方 引 经 据 典 ， 我 们 在 翻译 过 程 中 尽量 通过 Google 等 办 法 
查找 对 应 的 典故 ， 不 过 文化 的 差异 和 有 限 的 水 平 ， 造 成 译 稿 中 必定 还 有 不 少 不 尽 如 人 总 的 地 方 ， 
请 各 位 读者 原 这 。 























谭 振 林 
2011 年 5 月 


@ CAP 是 指 : 一 致 性 (Consistency)， 可 用 性 (Availability) ， 分 区 容忍 性 (Partition tolerance)。CAP 原理 认为 这 三 
个 要 素 最 多 只 能 同时 实现 两 点 ， 不 可 能 三 者 兼顾 。 
@ Redis 是 一 款 优秀 的 、 基 于 内 存 处 理 数 据 的 、 原 生 支 持 多 种 数据 结构 的 Key-Value 型 NoSQL 产品 。 
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我 本 人 并 非 DBA, 但 工作 中 时 刻 都 要 和 数据 打交道 , 无 论 是 SQL 还 是 NoSQL。 在 一 个 产品 
的 生命 周期 里 ， 设 计 与 开发 总 是 只 占 很 小 的 一 部 分 ,大量 的 时 间 都 用 在 后 续 的 维护 、 优 化 和 调整 
中 。 互 联网 服务 更 古 如 此 。 而 维护 、 性 能 调 优 阶段 ， 就 古 一 个 不 断 地 犯错 一 纠正 一 归纳 的 循环 。 
本 书 作 者 将 他 所 归纳 整理 出 的 这 些 “ 错 误 ” 写 在 了 这 本 书 中 ， 让 我 们 这 些 后 来 者 能 够 更 早 地 发 现 
程序 中 的 同 题 ， 从 而 市 省 大 量 的 时 间 成 本 。 


无 论 时 下 NoSQL 技术 有 多 么 的 火爆 ,终究 有 一 个 无 法 解决 的 回 题 一 一 内 存 开销 。 因 而 几乎 
所 有 的 网 站 、 社 区 ， 其 后 台 必 然 有 大 量 使 用 SQL 进行 存储 的 模块 。 

在 翻译 本 书 的 过 程 中 , 我 也 回顾 了 以 前 所 接触 到 的 或 者 目 己 做 的 数据 库 设计 , 很 多 部 没有 从 
数据 库 本 身 出 发 去 解决 问题 ， 而 古 直 接 在 前 问 增 加 了 一 个 缓存 。 

本 书 中 的 很 多 问题 解决 方案 都 很 优雅 ， 在 不 触 碰 程序 员 介 求 程序 整洁 度 的 洁 疾 神经 的 情况 
下 ， 利 用 SQL 本 身 就 有 的 特性 和 功能 解决 了 问题 。 这 些 生 例 非 第 值得 我 们 学 习 。 

本 书 作者 知识 丰富 ,在 很 多 方面 上 都 有 所 涉及 ， 书 中 提 到 很 多 文化 方面 的 内 容 ， 翻译 不 到 位 
之 处 ， 馈 请 指正 。 

















Push Chen 
2011 年 月 
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A 了 证 
下 = 


sr 
-| ==== 
有 一 


所 谓 专 家 ， 就 是 在 一 个 很 小 的 领域 里 把 所 有 错误 都 犯 过 了 的 人 。 
尼 尔 斯 。 玻 外 


我 曾经 拒绝 过 第 一 份 关于 SQL 的 工作 。 

获得 加 州 大 学 计算 机 与 信息 科学 的 本 科学 位 后 不 久 , 我 接 到 了 一 个 工作 邀请 , 来 自 于 一 位 兽 
经 在 加 州 大 学 工作 过 的 经 理 ,我 们 在 一 次 校园 活动 相识 。 他 当时 刚刚 建立 了 自己 的 软件 公司 ， 致 
力 于 使 用 shell 脚本 和 诸如 awk 的 相关 工具 (诸如 Ruby、Python、PHP， 甚 至 Perl 等 现代 动态 语 
言 ， 在 当时 都 还 不 甚 流行 )， 来 开发 适用 于 众多 UNIX 平台 的 数据 库 管理 系统 。 这 个 经 理 邀 请 我 
是 因为 他 需要 一 个 人 来 开发 一 些 代码 ， 识 别 并 且 执 行 功能 有 限 版 本 的 SQL 语言 。 

他 说 :“ 我 不 需要 支持 完整 的 SQL 语言 ， 那 样 工作 量 太 大 了 。 我 只 需要 支持 一 个 SQL 语句 ， 
SELECT。 

我 在 学 校 里 并 没有 学 过 SQL。 数 据 库 在 当时 并 不 像 现在 这 样 普遍 ， 并 且 当时 也 没有 诸如 
MySQL 和 PostgreSQL 之 类 的 开源 程序 。 但 我 用 shell 脚本 开发 过 完整 的 应 用 程序 , 并 且 了 解 一 些 
语法 分 析 的 技术 ,也 做 过 一 些 关于 编译 器 设计 和 计算 语言 学 的 课程 项 目 。 因 此 我 在 想 是 否 要 接受 
这 个 工作 。 只 解析 像 SQL 这 样 的 专业 语言 中 单独 的 一 类 语句 会 有 多 困难 呢 ? 

我 找 了 一 份 SQL 的 参考 资料 并 且 立 刻意 识 到 它 不 同 于 那些 支持 ifO、whileO 语 句 、 变 量 
定义 、 表 达 式 以 及 可 能 还 有 函数 调用 的 语言 。 说 SELECT 只 是 此 类 语言 中 的 一 个 语句 ， 等 同 于 说 
引擎 只 是 汽车 的 一 部 分 。 从 字面 上 来 看 ,这 两 句 话 都 是 正确 的 , 但 是 都 完全 掩盖 了 这 两 个 主体 的 
复杂 性 和 深度 。 我 意识 到 仅仅 为 了 支持 SELECT 这 一 个 语句 的 执行 ， 就 必须 要 实现 一 个 完整 的 关 
系 型 数据 库 管理 系统 以 及 其 查询 引擎 的 全 部 代码 。 

我 拒绝 了 这 个 用 shell 脚本 实现 SQL 解析 与 关系 型 数据 库 管理 系统 引擎 的 工作 机 会 。 那 个 经 
理 并 没有 充分 理解 他 的 项 目的 复杂 度 , 可 能 他 并 不 理解 什么 是 关系 型 数据 库 管理 系统 (RDBMS)。 

我 早期 使 用 SQL 的 经 历 和 普通 的 软件 开发 人 员 并 没有 什么 区 别 , 和 那些 从 计算 机 科学 专业 毕 
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2 有 第 l 章 引言 








业 的 学 生 相 比 也 十 如 此 。 大 多 数 人 学 习 SQL 语言 都 征 因为 项 目 所 需 而 不 得 不 目 学 的 ， 而 不 古 像 其 
他 的 编程 语言 那样 从 头 开始 认真 地 学 习 。 不论 是 对 SQL 爱好 者 、 专 业 程 序 员 或 者 拥有 博士 学 位 的 
娴熟 的 研究 人 员 ，SQL 就 好 像 是 程序 员 的 一 个 不 经 过 训练 就 学 会 了 的 软件 技能 。 


此 后 , 当 我 了 解 了 一 些 SQL 方面 的 知识 后 , 我 惊讶 于 它 和 那些 过 程式 的 编程 语言 (诸如 C、 Pascal 
和 shell) 或 是 面 癌 对 象 的 编程 语言 (诸如 CHt+、Java、Ruby 或 Python) 都 有 着 显著 的 区 别 。SQL 
是 一 门 声 明 式 的 编程 语言 ， 就 像 Lisp、Haskell 或 者 XSLT。SQL 使 用 集合 (set) 作为 根本 的 数据 结 
构 ， 而 面 问 对 象 的 语言 使 用 的 是 对 象 (object)。 受 过 传统 培训 的 软件 开发 人 员 被 所 谓 的 “阻抗 失 
配 ” 所 阻碍 , 因此 很 多 程序 员 转 而 使 用 现成 的 面 癌 对 象 的 库 , 以 此 来 避免 学 习 如 何 高 效 地 使 用 SQL。 

自 1992 年 以 来 ， 我 在 工作 中 大 量 使 用 SQL。 我 在 开发 应 用 程序 的 过 程 中 要 使 用 它 ， 我 也 为 
InterBase RDBMS 产品 提供 技术 支持 、 开 发 培训 课程 以 及 文档 ， 并 且 开 发 了 Perl 和 PHP 中 用 于 
SQL 编程 的 库 。 我 在 那些 网 络 邮 件 列表 和 新 闻 讨 论 组 中 回答 了 成 千 上 万 的 问题 。 大 量 重复 的 问题 
表明 程序 员 总 是 一 过 又 一 遍地 犯 同 样 的 错误 。 

















不 管 你 是 初学 者 还 是 资深 入 员 , 这 本 《SQL 反 模 式 》 都 能 帮助 需要 使 用 SQL 的 程序 员 更 有 
效 地 使 用 它 。 我 和 所 有 不 同 经 验 层 次 的 人 交流 过 ， 他 们 邦 能 从 这 本 书 中 歼 益 。 

你 可 能 已 经 阅读 过 SQL 话 法 的 参考 资料 ， 知 道 所 有 的 SELECT 语句 的 子 句 ， 并 且 能 够 用 它 来 
做 一 些 事 情 了 。 效 痢 地 ， 你 可 以 通过 阅读 别人 的 程序 代码 或 者 文 草 来 提升 你 的 SQL 技能 。 但 你 怎 
么 能 区 分 优 荔 ?起 么 能 确定 你 正在 学 习 的 是 最 佳 方法 ， 而 不 古 男 一 个 可 能 使 你 陷入 困境 的 方法 ? 

你 可 能 会 在 本 书 中 找到 一 些 熟 悉 的 话题 。 即使 你 之 前 已 经 找到 了 解决 方案 , 仍 可 以 发 现 新 的 
看 竺 问题 的 方法 。 重 新 审视 那些 广 为 流 传 的 错误 ， 将 能 更 好 地 确认 和 巩固 你 对 优秀 范例 的 理解 。 
还 有 一 些 话题 可 能 对 你 来 说 比较 新 鲜 ， 我 希望 你 能 通过 阅读 它们 来 改善 目 己 的 SQL 编程 习惯 。 

如 末 你 是 一 个 训练 有 素 的 数据 库 管理 员 , 可 能 已 经 知道 了 如 何 用 最 好 的 方法 来 避免 本 书 所 插 
述 的 SQL 编程 中 多 犯 的 错误 。 然 而 这 本 书 也 能 从 软件 开发 人 员 的 角度 来 帮助 你 。 开 发 人 员 和 DBA 
之 间 为 项 目 争 论 是 很 第 见 的 , 但 相互 章 重 和 团队 合作 能 够 玫 助 我 们 更 有 效 地 工作 。 你 可 以 使 用 本 
书 来 癌 你 负责 开发 的 同事 解释 一 些 好 的 做 法 ， 以 及 不 这 么 做 会 有 怎样 的 后 未 。 


1.2 本 书 内 容 


什么 是 “有 反 模 式 ”? 反 模 式 是 一 种 试图 解决 问题 的 方法 , 但 通 第 会 同时 5| 发 别 的 问题 。 反 模 














@ 阻抗 失 配 (impedance mismatch) 原意 为 当 渡 波 器 输出 阻抗 Z0 和 与 之 端 接 的 负载 阻抗 ZL 不 相等 时 ， 在 该 端口 A 上 
产生 反射 ， 引 入 到 计算 机 科学 中 指 面 加 对 象 应 用 程序 癌 关 系 型 数据 库存 储 数据 时 的 数据 不 一 致 问题 。 一 一 译 者 注 
O 反 模 式 英 文 为 Antipattem， 在 SQL 中 ，pattern 有 时 译 为 范式 ， 本 书 中 采用 模式 一 词 。 译 者 注 
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1.2 本 书 内 容 三 3 


式 虽 以 不 同 的 形式 被 广泛 实践 ,但 这 其 中 仍 存 在 一 定 的 共通 性 。 人 人 们 可 能 独立 地 ,或 是 在 一 个 同 
事 、 一 本 书 或 者 一 篇 文章 的 帮助 下 想 出 一 个 反 模 式 的 主意 。 很 多 面 问 对象 的 软件 设计 与 项 目 管 理 
方面 的 反 模式 都 记录 在 Portland Pattern Repository 中 ， 或 是 记录 在 1998 年 出 版 的 《 反 模 式 》” 
(William J. Brown 等 ) 一 书 中 。 


本 书 描述 了 我 做 技术 支持 、 做 塔 训 课程 、 和 程序 员 一 起 开发 软件 以 及 在 网 络 论坛 上 回答 问题 
时 通 到 的 最 第 见 的 错误 。 这 其 中 很 多 错误 我 日 己 也 犯 过 , 除了 在 深夜 花 好 儿 个 小 时 找到 并 解决 掉 
之 外 并 没有 更 好 的 办 法 。 


1.2.1 本 书 结构 

这 本 书 将 反 模 式 分 类 成 如 下 四 部 分 。 

逻辑 数据 库 设计 反 模 式 

在 你 开始 编码 之 前 , 需要 决定 数据 库 里 存储 什么 信息 以 及 最 佳 的 数据 组 织 方 式 和 内 在 关联 方 
式 。 这 包含 了 如 何 设计 数据 库 的 表 、 字 段 和 关系 。 

物理 数据 库 设 计 反 模式 


在 知道 了 需要 存储 哪些 数据 之 后 , 使 用 你 所 知 的 RDBMS 技术 特性 尽 可 能 高 效 地 实现 数据 管 
理 。 这 包含 了 定义 表 和 索引 ， 以 及 选择 数据 类 型 。 你 也 要 使 用 SQL 的 “数据 定义 语言 ， 比 如 
CREATE TABLE 语句 。 

查询 反 模 式 


你 需要 加 数据 库 中 知 加 然后 获取 数据 。SQL 的 查询 是 使 用 “数据 操作 语言 ”来 完成 ， 比 如 
SELECT、UPDATE 和 DELETE 语句 。 


应 用 程序 开发 反 模 式 

SQL 应 该 会 用 在 使 用 C++、Java、Php、Python 或 者 Ruby 等 语言 构建 的 应 用 程序 中 。 在 应 用 
程序 中 使 用 SQL 的 方式 有 好 有 坏 ， 该 部 分 内 容 摘 述 了 一 些 第 见 错误 。 

很 多 反 模 式 草 贡 都 采用 了 一 些 比 较 幽 软 或 是 能 产生 共鸣 的 标题 ， 比 如 人 金 逛 子 、 重 新 造 轮子 
或 由 委员 会 设计 。 通 前 来 说 ， 会 同时 给 出 正面 的 设计 模式 和 反 模 式 的 名 字 作 为 隐喻 或 帮助 记忆 。 

附 永 提供 了 一 些 对 关系 数据 库 理论 实践 的 描述 。 本 书 中 的 很 多 反 模 式 其 实 都 征 对 数据 库 理论 
的 误解 造成 的 。 























@ Portland Pattern Repository: http:/c2.comy/cgi-bin/wiki?AntiPattern 。 
@ 本 书 由 人 民 邮 电 出 版 社 于 2007 年 出 版 。 编者 注 
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4 芭 第 1 章 引言 
1.2.2 反 模 式 分 解 

每 个 反 模式 章 方 都 包含 了 如 下 的 子 标题 结构 。 

目的 

这 是 你 可 能 要 去 尝试 解决 的 任务 。 意 图 使 用 反 模 式 提 供 解决 方案 , 但 通常 会 以 引起 更 多 问题 
而 告终 。 

反 模 式 

这 一 部 分 表述 了 通常 使 用 的 解决 方案 的 本 质 ,并 且 展 示 了 那些 没有 预知 到 的 后 果 ， 正 是 这 些 
使 得 这 些 方案 成 为 反 模式 。 

如 何 识 别 反 模式 

一 些 固定 的 方式 会 有 助 于 你 辨识 在 项 目 中 使 用 的 反 模 式 。 你 遇 到 的 特殊 障碍 , 或 是 你 自己 和 
别人 说 的 一 些 话 ， 都 能 使 你 提前 识别 出 反 模 去 。 

合理 使 用 反 模 式 

规则 总 有 例外 。 在 某 些 情况 下 ， 本 来 认为 是 反 模式 的 设计 却 可 能 是 合理 的 ， 或 者 说 至 少 是 所 
有 的 方案 中 最 合理 的 。 

解决 方案 

这 一 部 分 描述 了 首选 的 解决 方案 , 它们 不 仅 能 够 解决 原 有 的 问题 , 同时 也 不 至 于 引起 由 反 模 
式 导 致 的 新 问题 。 
1.3 本 书 未 涉及 的 内 容 

我 不 打算 讲解 SQL 的 语法 或 者 相关 术语 。 有 大 量 关 于 这 些 基础 内 容 的 书籍 或 者 网 络 资料 。 
我 假设 你 已 经 学 习 了 足够 多 的 SQL 的 语法 来 使 用 这 门 语言 并 且 能 够 做 好 一 些 事情 。 

性 能 、 可 伸缩 性 以 及 优化 对 于 很 多 开发 数据 驱动 应 用 程序 , 特别 是 网 络 应 用 的 设计 人 员 来 说 
是 非常 重要 的 。 市 面 上 也 有 很 多 和 数据 库 开 发 性 能 相关 的 书籍 。 我 推荐 SOL Performance 
Tuning[GP-3] 和 High Performance MySOL, Second Edition[SZT+08]”, 本 书 的 一 些 主题 和 性 能 相关 ， 
但 这 不 是 本 书 最 主要 的 目的 。 

尝试 把 问题 表述 成 适用 于 所 有 厂商 的 数据 库 , 并 且 这 些 解决 方案 也 将 会 适用 于 所 有 的 数据 

库 。SQL 语言 被 规定 为 一 种 ANSI 和 ISO 标准 ， 所 有 的 数据 库 都 支持 这 一 人 标准， 因此 我 尽 可 能 











@ 《高 性 能 MySQL (第 二 版 )》 由 电子 工业 出 版 社 于 2010 年 出 版 。 一 一 编者 注 
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并 地 使 用 SQL 而 不 偏 癌 任何 品牌 并且 我 会 明确 说 明 不 同 厂商 SQL 数据 库 的 特定 扩展 。 

数据 访问 框架 和 对 象 关 系 映射 《ORM) 库 是 非常 有 用 的 工具 ， 但 这 些 也 并 不 是 本 书 的 重点 。 
我 用 最 普通 、 最 直 白 的 方式 写 过 很 多 PHP 的 代码 郊 例 。 本 书 的 范例 足够 集 单 ， 从 而 能 够 在 大 部 
分 编程 语言 中 适用 。 

数据 库 的 省 理 和 操作 任务 ， 诸 如 服务 如 磁盘 分 配 、 安 装 和 配置 、 监 探 和 备份 、 日 志 分 析 以 及 
安全 都 是 非常 重要 并 且 值 得 用 一 警 本 书 来 描述 的 ， 但 本 书 更 倾 问 于 那些 使 用 SQL 的 开发 人 员 而 
不 定数 据 库 管理 员 。 

这 本 书 是 关于 SQL 和 关系 型 数据 库 的 ， 以 及 其 他 的 符 代 技术 ， 诸 如 面 加 对 象 数据 库 、 键 / 值 
存储 、 面 问 列 的 数据 库 、 面 加 文档 的 数据 库 、 分 级 数据 库 、 网 络 数据 库 、Map/Reduce 框架 或 者 
语义 数据 人 存储。 比较 这 些 技 术 的 优 缺 点 并 在 不 同 的 数据 管理 解决 方案 中 恰当 地 使 用 它们 是 一 个 
很 有 趣 的 课题 ， 但 这 并 不 是 本 书 的 议题 。 


1.4 规约 


下 面 描述 了 本 书 中 使 用 的 一 些 规约 。 

排版 

SQL 关键 字 都 大 写 并 且 使 用 等 宽 字 体 ， 以 使 得 它们 在 上 下 文中 更 突出 ， 就 像 SELECT。 

SQL 的 表 名 ， 也 用 等 宽 字 体 ， 并 且 首 字母 大 写 ， 如 Accounts 或 者 BugsProducts。SQL 的 
列 ， 也 使 用 等 宽 字 体 ， 全 都 使 用 小 号， 并且 使 用 下 划 线 分 词 ， 如 account_name。 

术语 

SQL 的 正确 发 音 是 S-Q-L， 不 是 C-QL。 虽 然 我 对 通俗 用 法 并 没有 什么 反对 意见 ， 但 我 更 倾 
向 于 使 用 正式 用 法 。 

在 数据 库 相 关 的 用 法 中 ,“ 索 引 ” 一 词 指 的 是 一 个 有 序 的 信息 集合 。 在 其 他 情况 下 “索引 7 
可 能 指 的 是 指示 器 。 

在 SQL 中 ， 术 语 查询 (query) 和 语句 (statement) 有 时 指 的 是 同一 个 意思 ， 指 的 都 是 任何 
可 执行 的 一 名 完整 的 SQL 指令 。 为 了 描述 清晰 ， 我 使 用 “查询 ”表示 SELECT 语句 ， 而 “语句 ” 
用 来 表达 其 他 语句 ， 包 括 INSERT、UPDATE 和 DELETE 以 及 数据 定义 语句 。 

数据 实体 关系 图 

最 常见 的 关系 数据 库 图 表 就 是 实体 关系 图 ERD (Entity Relationship Diagram) 。 表 格 使 用 息 
形 表示 ， 关 系 使 用 链接 各 个 矩形 的 线段 来 表示 ， 并 且 在 两 端 使 用 各 种 符号 来 表述 关系 的 基数 。 具 
体 事例 可 以 参考 下 一 页 的 图 1-1。 
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多 对 一 
每 个 账号 记录 了 很 多 bug 


一 对 多 
每 个 bug 有 很 多 评论 


一 对 一 
每 一 个 产品 对 应 一 个 安装 程序 


Installers 


Products (产品 ) (安装 程序 ) 


多 对 多 
每 个 产品 可 能 有 很 多 bug; 
一 个 bug 可 能 属于 多 个 产品 


多 对 多 
同上 上 交叉 表 


am Nr-Odwomaies Po 


时 1-1 ”实体 关系 图 ERD 示例 
1.5 ”范例 数据 库 

我 使 用 一 个 假想 的 缺陷 跟踪 程序 的 数据 库 来 展示 大 部 分 与 SQL 反 模 式 相关 的 话题 。 图 1-2 十 该 
数据 库 的 ERD。 请 注意 ，Bugs 表 和 Accounts 表 之 间 有 3 个 连接 ， 代 表 3 个 不 同 的 外 键 。 

接 下 来 的 数据 库 定 义 语句 则 展示 出 如 何 定义 这 些 表 。 有 些 时 候 所 做 的 选择 只 是 为 了 照顾 后 面 
的 范例 ， 因 而 它们 可 能 并 不 是 人 们 在 实际 应 用 程序 中 所 做 的 选择 。 我 尽力 使 用 标准 SQL 来 定义 
这 个 数据 库 ， 使 其 能 适用 于 任 一 数据 库 产 品 ， 但 也 会 出 现 一 些 MYSQL 数据 类 型 ， 诸 如 SERIAL 
和 BIGINT 语句 。 


Introduction/setup.sql 


CREATE TABLE Accounts ( 


account_1id SERIAL PRIMARY KEY ， 
account name VARCHAR (20 ) ， 
first name VARCHAR (20), 
last_name VARCHAR (20), 
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emal |] VARCHAR (100 ) ， 
password_hash CHAR(64), 
portrait_image BLOB ， 
hourly_rate NUMERIC(9,2) 
J 
CREATE TABLE BugStatus ( 
status VARCHAR(20) PRIMARY KEY 
); 
CREATE TABLE Bugs ( 
bug_id SERIAL PRIMARY KEY, 
date_reported DATE NOT NULL, 
summary VARCHAR(80), 
description VARCHAR(1000), 
resolution VARCHAR(1000), 
reported_by BIGINT UNSIGCNED NOT NULL ， 
assigned to BIGINT UNSIGNED, 
verified_by BIGINT UNSIGCNED, 
status VARCHAR(20) NOT NULL DEFAULT ‘NEW'", 
priority VARCHAR (20 1) ， 
hours NUMERIC(9 ,2) ， 


FOREION KEY (reported by) REFERENCES Accounts(account_1d), 
FOREIGN KEY (assigned to) REFERENCES Accounts(account_1id), 
FOREIGN KEY (verified by) REFERENCES Accounts(Caccount_1id)， 
FOREIGN KEY (status) REFERENCES BugStatus(status) 

2 


CREATE TABLE Comments ( 


comment_id SERIAL PRIMARY KEY ， 
bug_1d BIGINT UNSIGNED NOT NULL ， 
author BIGINT UNSIGNED NOT NULL, 
comment_date DATETIME NOT NULL ， 
comment TEXT NOT NULL, 


FOREIGN KEY (bug_ id) REFERENCES Bugs (bug_1id), 
FOREIGN KEY (author) REFERENCES Accounts(account_1d) 


CREATE TABLE Screenshots ( 


bug_1d BIGINT UNSIGNED NOT NULL ， 
image_id BIGINT UNSIGNED NOT NULL ， 
screenshot_1mage BLOB, 
Capt1on VARCHAR (100 ) ， 
PRIMARY KEY (bug_id, image_1d), 
FOREIGN KEY (bug_id) REFERENCES Bugs (bug_1id) 
); 
CREATE TABLE Tags ( 
bug_1d BIGINT UNSIGNED NOT NULL ， 
tag VARCHAR(20) NOT NULL ， 





1 .3 


范例 数据 库 二 7 
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PRIMARY KEY (bug_id, tag), 
FOREIGN KEY (bug_ id) REFERENCES Bugs (bug_id) 
Ds 
CREATE TABLE Products ( 
product_id SERIAL PRIMARY KEY ， 
product_name VARCHAR(50) 
小 
CREATE TABLE BugsProducts( 
bug_id BIGINT UNSIGNED NOT NULL, 
product_id BIGINT UNSIGNED NOT NULL, 
PRIMARY KEY (bug_1id, product_1d), 


FOREIGN KEY (bug_ id) REFERENCES Bugs (bug_1id), 
FOREICN KEY (product_ 1d) REFERENCES Products(product_1d) 














BugStatus 
(Bug 状态 ) 


Accounts 
(账号 ) 







Screenshots Pp 


(截屏 ) 










Products 


(产品 ) 


Comments 
(评论 ) 





NS 


BugsProducts 


1-2 BUG 数据库 ERD 

在 一 些 攻 市 中 ,尤其 是 在 逻辑 数据 库 反 模式 的 章 广 中 ,我 展示 了 一 些 不 同 的 数据 库 定义 ， 有 既 
为 了 展示 反 模 式 ， 也 同时 展示 一 个 可 选 的 解决 方案 来 避免 反 模 式 。 
1.6 ”致谢 

首先 ， 我 要 感谢 我 的 妻子 Jan， 没 有 她 的 启发 、 关 爱 和 支持 ， 更 不 用 说 时 时 的 督促 ， 我 无 法 
写成 这 本 书 。 

我 也 想 要 对 我 的 审阅 者 表达 谢意 ,感谢 他 们 花 了 那么 多 的 时 间 。 他 们 的 建议 提高 了 本 书 的 质 
量 。 他 们 是 Marcus Adams、Jeff Bean、Frederic Daoud、Darby Felton、Arjen Lentz、Andy Lester、 








Chris Levesque、 Mike Naberezny、Liz Nealy、Daev Roehr、 Marco Romanini、Maik Schmidt、Gale 
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全 Ar 办 章 
史 早 


乱 穷 马 贤 


一 个 不 愿 透 露 姓 名 的 Netscape 工程 师 曾 经 将 一 个 指针 的 地 址 当成 字符 串 传 给 了 
JavaScript， 随 后 再 回 传 给 C， 节 省 了 30 秒 。 
布雷 元 。 罗 斯 


假设 你 正在 为 缺陷 跟踪 程序 开发 一 种 功能 ， 将 某 个 用 户 指定 为 某 个 产品 的 主要 联系 人 。 你 最 
人 急 的 设计 只 允许 每 个 产品 拥有 一 个 联系 人 人， 然而， 就 像 你 猜 的 那样 ， 需 求 可 能 会 变 为 文 持 “每 个 
产品 有 多 个 联系 人 。 

此 时 , 将 数据 库 中 原来 存储 单一 用 户 标 识 的 字段 改 成 使 用 逗号 分 隔 的 用 户 标 识 列 表 , 似乎 是 
一 个 很 简单 且 合 理 的 解决 方案 。 

很 快 ， 你 的 老板 跑 来 问 你 :“ 工 程 部 在 往 他 们 的 项 目 中 添加 相关 人 员 时 发 现 最 多 只 能 添加 5 
个 人 ， 如 末 想 要 继续 添加 更 多 的 人 ， 程 序 就 会 报错 ， 这 是 怎么 回 事 ? 

你 后 头 说 道 :“ 是 的 ， 只 能 在 一 个 项 目 中 列 出 这 么 多 人 ,就 是 这 么 设计 的 。 你 完 得 这 是 一 件 
再 正常 不 过 的 事情 了 。 

但 老板 似乎 并 不 这 么 认为 ， 他 需要 一 个 更 加 明确 的 解释 。 好 吧 ，5 到 10 个 ， 可 能 再 多 存 几 
个 ， 那 取决 于 这 些 账 号 创建 时 间 的 早晚 。 老板 感 完 非常 吃 尺 ， 于 是 你 继续 说 道 :“ 我 使 用 逗号 分 
隔 的 列表 来 存储 项 目的 账号 ID ， 而 这 个 ID 列表 的 长 度 不 能 超过 字符 串 的 最 大 长 度 值 。 账 号 ID 
越 短 ， 列 表 中 的 账号 ID 束 越 多 。 因 此 ， 账 过 创建 较 早 的 人 ， 他 们 的 ID 不 大 于 99， 这 些 账号 ID 
里 起 。 

老板 皱 起 眉头 ， 你 完 得 你 又 要 加 班 到 很 晚 了 。 

程序 员 通 常 使 用 逗号 分 隔 的 列表 来 避免 在 多 对 多 的 关系 中 创建 交 又 表 ， 我 将 这 种 设计 方 
式 定 义 为 一 种 反 模 式 ， 称 为 乱 穿 马 路 〈Jaywalking) ， 因 为 乱 军马 路 也 是 避免 过 十 字 路 口 的 一 
种 方式 .。 
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2.1 目标 : 存储 多 值 属 性 


设计 一 个 单 值 表 列 是 非常 简单 的 : 你 可 以 选择 一 个 SQL 的 内 置 数 据 类 型 ， 以 该 类 型 来 存储 
这 个 表 项 的 数据 ， 比 如 整 型 、 日 期 类 型 或 者 字符 串 。 但 是 如 何 才能 做 到 在 一 列 中 存储 一 系列 相关 
数据 的 集合 呢 ? 

在 我 们 的 缺陷 跟踪 数据 库 的 例子 中 ， 我 们 在 Products 表 中 使 用 一 个 整 型 的 列 来 关联 产品 和 
对 应 的 联系 人 。 每 个 账号 可 能 对 应 很 多 产品 ,每 个 产品 又 引用 了 一 个 联系 人 ， 因 此 我 们 在 产品 和 
账号 之 间 有 一 个 多 对 一 的 关系 。 


Jaywalking/obj/create.sql 








CREATE TABLE Products ( 
product_ id SERIAL PRIMARY KEY, 
product_name VARCHAR(1000), 
account_1id BIGINT UNSIGNED, 


FOREIGN KEY (account 1d) REFERENCES Accounts(account _ 1d) 
73 


INSERT INTO Products (product 1d, product name, account_1d) 
VALUES (DEFAULT, 'Visuvual TurboBuiider', 12); 


随 着 项 目 日 趋 成 熟 ， 你 苇 识 到 一 个 产品 可 能 会 有 多 个 联系 人 。 除 了 多 对 一 的 关系 之 外 ， 我 们 还 
需要 文 持 产品 到 账号 的 一 对 多 的 关系 。Products 表 中 的 一 行 数据 必须 要 能 够 存储 多 个 联系 人 。 


2.2 反 模 式 : 格式 化 的 逗号 分 隔 列 表 


为 了 将 对 数据 库 表 结构 的 改动 控制 在 最 小 范围 内 ， 你 决定 将 account_id 的 类 型 修改 成 
VARCHAR， 这 样 就 可 以 列 出 该 列 中 的 多 个 账号 DD， 每 个 账号 ID 之 间 用 喜 吕 分隔 。 


Jaywalking/anti/create.sql 


CREATE TABLE Products ( 
product_ id SERIAL PRIMARY KEY, 
product_name VARCHAR(1000), 

account_1d VARCHAR(100)，-- 过 号 分 隔 列 表 





7 
这 样 的 设计 似乎 可 行 ， 因 为 你 和 没有 创建 额外 的 表 或 者 列 ， 而 仅仅 改变 了 一 个 字段 的 数据 类 
。 然 而 ， 我 们 来 看 一 下 这 样 设计 所 必须 承受 的 性 能 问题 和 数据 完整 性 问题 。 


2.2.1 查询 指定 账号 的 产品 


如 东 所 有 的 外 键 都 合并 在 一 个 单元 格 内 , 碍 询 会 变 得 噶 贡 困难 。 你 将 不 能 再 使 用 等 号 , 相反 ， 





we 
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不 得 不 对 天 类 模 却 使 用 测试 。 比 如 ，MySQL 下 可 以 写 一 些 如 下 的 表达 式 来 查询 所 有 账 弓 ID 为 
12 的 产品 : 

Jaywalking/anti/regexp.sql 

SELECT x* FROM Products WHERE account _ 1d REGEXP /六 < 1I2[[:>:]]'; 

模式 匹配 的 表达 式 可 能 会 返回 错误 结果 ,并 且 无 法 享受 索引 带 来 的 性 能 优势 。 由 于 模式 匹配 
表达 式 的 语法 在 不 同 品 牌 的 数据 库 中 是 不 同 的 ， 因 此 你 的 SQL 代码 并 不 是 平台 中 立 的 。 
2.2.2 ”查询 指定 产品 的 账号 


同样 地 ， 使 用 肿 写 分 隔 的 列表 来 做 多 表 联 结 人 查询 定位 一 行 数据 也 是 极 不 优雅 和 耗 时 的 。 


Jaywalking/anti/regexp.sql 





SELECT x* FROM Products AS p JOIN Accounts AS a 
ON p.account 1d REGEXP "[[:<:J]" || aaccount id || > 了 
WHERE p.product 1d = 123; 


联合 两 张 表 并 使 用 如 上 的 一 名 表达 式 将 毁 掉 任何 使 用 索引 的 可 能 。 这 样 的 查询 必须 扫描 两 张 
表 ， 创 建 一 个 交叉 结 末 集 ， 然 后 使 用 正则 表达 式 过 历 每 一 行 联合 后 的 数据 进行 匹配 。 


2.2.3 ”执行 聚合 查询 
聚合 查询 使 用 SQL 内 置 的 聚合 函数 ， 如 COUNTO 、SUMGO 、AVGGO 。 然 而 ， 这 些 国 数 是 针对 
分 组 行 而 设计 的 ， 并 不 是 为 了 逐 志 分 隔 的 列表 。 你 不 得 不 借助 于 如 下 的 一 些 方法 : 


Jaywalking/anti/count.sql 


SELECT product_1d, LENGTH(account_ 1d) - LENGTH(REPLACE(account _ 71d, ',', ''))+1 
AS contacts per_product 
FROM Products; 


这 类 方法 可 能 看 上 去 很 高 明 , 但 并 不 清晰 。 这 种 类 型 的 解决 方案 需要 花费 很 长 的 时 间 来 开发 
并 且 不 方便 调试 。 何 况 有 些 聚 合 查询 根本 无 法 使 用 这 些 技巧 来 完成 。 
2.2.4 更 新 指定 产品 的 账号 


你 可 以 用 字符 名 拼接 的 方式 在 列表 尾 端 增加 一 个 新 的 也， 但 这 并 不 能 使 列表 按 顺 序 存储 。 


Jaywalking/anti/update.sql 








UPDATE Products 
SET account_ 1d = account 1d || '," || 56 
WHERE product_ 1d = 123; 


要 从 列表 中 删除 一 个 条 目 ， 必 须 执 行 两 条 SQL 查询 语句 第 一 条 提取 老 的 列表 ， 第 二 条 存 
储 更 新 后 的 列表 。 
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Jaywalking/anti/remove.php 
<?php 
$stmt = $pdo->query( 
"SELECT account_1d FROM Products WHERE product id = 123"); 


$row = $stmt->fetchO; 
$contact 1ist = $row[ 'account 71d']; 


// change list in PHP code 

$value to _ remove = "34"; 

$contact_l]ist = split(",", $contact_ 1ist); 

$key_to_remove = array_search($value to _ remove, $contact_ 1ist); 
unset($contact_ list[$key_to_remove|]); 

$contact_l1ist = join(",", $contact_ 1ist); 


$stmt = $pdo->preparel 
"UPDATE Products SET account id = 
WHERE product 1d = 123"); 
$stmt->execute(array($contact_1ist)); 


仅仅 为 了 从 列表 中 删除 一 个 账号 就 要 写 如 此 多 的 代码 。 
2.2.5 ”验证 产品 ID 
用 什么 来 防止 用 户 在 ID 中 输入 诸如 “banana”( 香 态 ) 这 样 的 非法 字段 ? 


Jaywalking/anti/banana.sql 


INSERT INTO Products (product_ 1id, product name, account_1d) 
VALUES (DEFAULT, ‘Visual TuyurboBuilder', '12,34,banana'); 


用 户 总 能 找到 办 法 输入 他 们 想 输入 的 奈 西 , 然后 你 的 数据 库 就 会 变 得 很 乱 。 上 面 这 样 的 情况 
并 不 一 定 是 一 个 数据 库 错 误 ， 但 相对 应 的 数据 会 变 得 室 无 价值 。 


2.2.6 选择 合适 的 分 隔 符 


如 果 存 储 一 个 字符 串 列表 而 不 是 数字 列表 ,列表 中 的 茶 些 条 目 可 能 会 包含 分 隔 符 。 使 用 过 号 
作为 分 隔 符 可 能 会 有 问题 。 当 然 ， 你 到 时 候 可 以 再 换 一 个 字符 ,但 你 能 确保 这 个 新 字符 永远 不 会 
出 现在 条 目 中 吗 ? 


2.2.7 ”列表 长 度 限制 


你 能 在 一 个 VARCHAR(30) 的 结构 中 存 多 少数 据 呢 ? 这 依赖 于 每 个 条 目的 长 度 。 如 果 每 个 条 
目 只 有 2 个 字符 长 ， 那 你 能 存 10 个 条 目 (包括 逗号 ) 。 但 如 果 每 个 条 目的 长 度 为 6， 你 就 只 能 存 
4 个 了 。 
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Jaywalking/anti/length.sql 

UPDATE Products SET account id = '10,14,18,22,26,30,34,38,42,46" 

WHERE product 1d = 123; 

UPDATE Products SET account 1d = "101418,222630,343842,467790" 

WHERE product 1d = 123; 

你 怎 能 确定 VARCHARC30) 能 够 支持 你 未 来 所 需 的 最 长 列表 呢 ? 多 长 才 够 长 ?你 可 以 自己 尝试 
着 去 和 老板 或 者 客户 解释 这 么 限制 的 原因 。 


2.3 ”如 何 识 别 反 模式 


如 末 你 的 项 目 团队 说 过 下 面 这 些 话 ， 那 么 这 很 有 可 能 融 是 在 项 目 中 使 用 了 “ 乱 罕 马路 ”设计 
模式 的 线索 。 


D 列表 最 多 文 持 存 放 多 少数 据 ? 
这 个 问题 在 选择 VARCHAR 列 的 最 大 长 度 时 被 所 及 。 

D “你 知道 在 SQL 中 如 何 做 分 词 查 找 吗 ? “ 
如 有 果 你 用 了 正则 表达 式 来 提取 字符 串 中 的 组 成 部 分 ， 这 可 能 是 一 种 提示 ， 意 味 着 你 应 该 
把 这 些 数据 分 开 存 储 。 

D “哪些 字符 不 会 出 现在 任何 一 个 列表 条 目 中 ? 
你 想 要 使 用 一 个 不 会 令 人 困惑 的 分 割 符号 ， 但 你 也 应 该 明白 任何 字符 都 有 可 能 在 某 天 出 
现在 字段 中 的 茶 个 值 内 。 


2.4 合理 使 用 反 模 式 


出 于 性 能 优化 的 考量 ， 可 能 在 数据 库 的 结构 中 需要 使 用 反 规 艺 化 的 设计 。 将 列表 存储 为 以 远 
号 分 隔 的 字符 串 就 是 反 规 范 化 的 一 个 实例 。 

应 用 程序 可 能 会 需要 召 号 分 隔 的 这 种 存储 格式 ， 也 可 能 没 必要 获取 列表 中 的 单独 项 。 同 样 ， 
如 本 应 用 程序 接收 的 源 数 据 是 有 远志 分 隅 的 格式 , 而 你 只 需要 存储 和 使 用 它们 并 且 不 对 其 做 任何 
修改 ， 完 全 没 必要 分 开 其 中 的 值 。 

你 需要 谨慎 使 用 反 规 苑 化 的 数据 库 设计 。 尽 可 能 地 使 用 规 艺 化 的 数据 库 设 计 ， 因 为 那样 的 设 
计 能 让 你 的 产品 代码 更 灵活 ， 并 且 也 能 在 数据 库 层 保 持 数 据 完 整 性 。 


2.5 解决 方案 : 创建 一 张 交 义 表 


将 account_id 存储 在 一 张 单 独 的 表 中 ， 而 不 是 存储 在 Products 表 中 ， 从 而 每 个 独立 的 
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account 值 都 可 以 占据 一 行 。 这 张 新 表 称 为 Contacts， 实 现 了 Products 和 Accounts 的 多 对 
多 关系 。 
Jaywalking/soln/create.sql 


CREATE TABLE Contacts ( 
product_ id BIGINT UNSIGNED NOT NULL, 
account_1d BIGINT UNSIGNED NOT NULL, 
PRIMARY KEY (product_ id, account_1d), 
FOREIGCN KEY (product _ 1d) REFERENCES Products(product_1d), 
FOREIGN KEY (account 1d) REFERENCES Accounts(account 1d) 


); 

INSERT INTO Contacts (product _ 1d, accont_1d) 

VALUES (123, 12), (123, 34), (345, 23), (567, 12), (567, 34); 

当 一 张 表 有 指 问 男 外 两 张 表 的 外 键 时 ， 我 们 称 这 种 表 为 一 张 交 又 表 ”， 它 实现 了 两 张 表 之 间 
的 多 对 多 关系 。 这 意味 着 每 个 产品 都 可 以 通过 交 又 表 和 多 个 账号 关联 ， 同样 地 , 一 个 账号 也 可 以 
通过 交 又 表 和 多 个 产品 关联 。 参 考 图 2-1。 


Accounts Contacts Products 


(账号 ) (联系 ) (Pi 





图 2-1 交叉 表 实体 关系 图 
我 们 来 看 看 ， 使 用 交叉 表 是 如 何 解决 2.2 节 中 描述 的 问题 的 。 
2.5.1 通过 账号 查询 产品 和 反 过 来 查询 


要 查询 指定 账号 的 产品 的 所 有 属性 ， 使 用 Products 和 Contacts 表 的 联结 查询 是 再 简单 不 
过 的 了 : 
Joaywalking/soln/join.sdql 


SELECT p.x 
FROM  _ Products AS p JOIN Contacts AS C ON (p.account 1d = c.account_1d) 
WHERE c.account 1d = 34; 


有 些 人 拒绝 使 用 联结 查询 ， 他 们 认为 那样 很 低 效 。 然 而 ， 与 2.2 市 中 提出 的 方法 相 比 ， 这 个 
查询 更 好 地 使 用 了 索引 1。 

查询 账号 的 细 习 也 非常 地 人 简单， 也 方便 优化 。 这 里 使 用 索引 提高 了 联结 查询 的 效率 ， 而 不 是 
使 用 深奥 的 正则 表达 去 : 








@ 有 人 用 “联合 表 ”、“ 多 对 多 表 ”、“ 映 射 表 ” 或 其 他 术语 来 描述 这 种 表 ， 表 述 方式 不 同 而 已 ， 其 本 质 都 是 相同 的 。 
一 一 译 者 注 
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Jaywalking/soln/join.sqgl 


SELECT a.x 
FROM Accounts AS a JOIN Contacts AS c ON (a.account 1d = c.account_ 1d) 
WHERE c.product 1d = 123; 


2.5.2 执行 聚合 查询 


下 面 的 例子 返回 每 个 产品 相关 的 账 弓 数量 : 
Jaywalking/soln/group.sql 


SELECT product_ id, COUNT(*x) AS accounts_ per_product 
FROM Contacts 
GROUP BY product_ 1d; 


获取 每 个 账 喜 相关 的 产品 数量 也 很 简单 : 
Jaywalking/soln/group.sql 


SELECT account_1d, COUNT(*x) AS products_per_account 
FROM Contacts 
GROUP BY account_1d; 


生成 其 他 更 加 复杂 的 报表 也 古 可 行 的 ， 比 如 找到 相关 账号 最 多 的 产品 : 
Jaywalking/soln/group.sql 


SELECT c.product id, c.accounts per_product 
FROM ( 
SELECT product 71d, COUNT(x) AS accounts per_product 
FROM Contacts 
GROUP BY product_1d 
) AS < 
HAVING c.accounts per_product = MAX(c.accounts_ per_product) 


2.5.3 ”更 新 指定 产品 的 相关 联系 人 


你 可 以 通过 添加 或 者 删除 交 又 表 中 的 行 来 简单 地 修改 字段 中 的 条 目 。 在 Contacts 表 中 ， 每 
条 产品 记录 都 古 分 开 存 储 在 不 同 的 行 中 的 ， 因 而 可 以 添加 或 删除 。 


Jaywalking/soln/remove.sql 


INSERT INTO Contacts (product _ 1d, account 1d) VALUES (456, 34); 


DELETE FROM Contacts WHERE product 1d = 456 AND account 1d = 34; 


2.5.4 ”验证 产品 ID 


你 可 以 以 男 一 张 表 中 的 合法 数据 为 标准 ， 使 用 外 键 来 验证 数据 。 通 过 声明 Contacts. 
account_id 引用 Accounts.account_id， 就 能 依靠 数据 库 上 自身 的 约束 来 强制 引用 的 完整 性 ， 以 
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确保 交叉 表 中 只 包含 确凿 存在 的 账号 ID。 

你 还 可 以 使 用 SQL 的 数据 类 型 来 约束 条 目 。 例 如 ， 设 定 字段 中 的 条 目 应 该 是 INTEGER 或 者 
DATE 类 型 的 , 就 可 以 确信 所 有 条 目 都 是 合法 的 数据 (不 会 是 乱七八糟 的 像 “banana” 一样 的 数据 )。 
2.5.5 ”选择 分 隔 符 

你 用 不 到 分 隔 符 了 ,因为 数据 都 分 开 存 储 在 不 同 的 行 中 。 即 使 条 目 中 出 现 了 逗号 或 者 任何 你 
可 能 想 用 做 分 隔 符 的 其 他 字符 ， 也 不 会 有 任何 问题 。 

2.5.6 ”列表 长 度 限制 


至 此 , 每 个 条 目 邦 位 于 交 又 表 中 的 独立 的 行内 , 列表 的 长 度 限制 就 变 成 了 一 张 表 可 以 实际 存 
放 的 行 数 。 如 条 可 以 限制 条 目 总 数 ， 你 应 该 在 程序 中 加 强 对 条 目 数 量 的 使 用 ， 而 不 是 统计 列表 的 
总 体 长 度 。 


2.5.7 ”其 他 使 用 交 义 表 的 好 处 


为 Contacts .account_id 做 索引 的 查询 效率 比 用 逗号 分 隔 列 表 中 分 串 高 效 得 多 。 在 许多 数 
据 库 中 ， 声 明 某 一 列 为 外 键 会 隐 式 地 为 该 列 创建 索引 (实际 情况 以 相关 文档 为 准 )。 

你 还 可 以 在 交叉 表 中 添加 其 他 属性 。 比 如 ， 可 以 记录 一 个 联系 人 被 加 入 产品 的 具体 日 期 ， 
或 产品 的 第 一 联系 人 及 第 二 联系 人 。 这 些 都 是 在 逗号 分 隔 的 列表 中 无 法 做 到 的 。 














每 个 值 都 应 该 存储 在 各 自 的 行 与 列 中 。 
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第 劝 章 
第 亿 用 章 


单纯 的 树 


树 就 是 树 ， 你 还 需要 考虑 些 什么 呢 ? 
罗 纳 德 。 里根 


设想 你 正在 为 一 个 著名 的 科技 新 闻 网 站 开发 新 版 本 。 

这 是 一 个 很 前 卫 的 网 站 ， 因 此 ,读者 可 以 评论 原文 甚至 相互 回复 ， 这样 就 某 一 主题 的 讨论 又 
延伸 出 很 多 新 的 分 支 ,其 深度 就 会 大 大 增加 。 你 选择 了 一 个 简单 的 解决 方案 来 跟踪 这 些 回复 分 支 : 
每 条 评论 引用 它 所 回复 的 评论 。 


Trees/intro/parent.sql 








CREATE TABLE Comments ( 
Comment_ 1d SERIAL PRIMARY KEY ， 
parent_1d BIGINT UNSIGNED, 
comment TEXT NOT NULL, 
FOREIGCN KEY (parent 1d) REFERENCES Comments(comment_1d) 
2 
很 快 ， 程 序 的 逻辑 就 变 得 清晰 起 来 ， 然 而 ， 要 用 一 条 简单 的 SQL 语句 检索 一 个 很 长 的 回复 
分 支 ， 还 是 很 困难 的 。 你 只 能 获取 一 条 评论 的 下 一 级 或 者 联结 党 二 级 ， 到 一 个 固定 的 深度 。 但 这 
个 贴 子 可 以 是 无 限 深 的 ， 你 可 能 需要 执行 很 多 次 SQL 查询 才能 获取 给 定 主题 的 所 有 评论 。 


男 一 个 你 想到 的 主意 古 先 获取 一 个 主题 的 所 有 评论 , 然后 再 在 程序 的 栈 内 存 中 将 这 些 数据 整 
合成 你 在 学 校 里 学 到 的 传统 的 树 形 数据 结构 。 但 是 ， 网 站 的 产品 人 员 告 诉 你 ,他 们 每 天 会 发 布 数 
十 篇 文章 , 每 篇 文 草 可 能 有 几 百 上 千 条 评论 , 因此 当 每 次 有 人 访问 网 站 都 要 做 一 次 数据 重 整 是 不 
切实 际 的 。 


一 定 有 一 个 更 好 的 方法 来 存储 评论 的 分 支 ， 同 时 可 以 简单 而 高 效 地 获取 一 个 完整 的 评论 分 支 。 
3.1 目标 : 分 层 存 储 与 查询 
存在 递归 关系 的 数据 很 常见 ， 数 据 常会 像 树 或 者 以 层级 方式 组 织 。 在 树 形 结构 中 ， 实 例 被 
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称 为 节点 《node)。 每 个 市 点 有 多 个 子 贡 点 和 一 个 父 点 。 最 上 层 的 布点 叫 根 (root) 市 点 ， 它 
没有 父 市 点 。 最 底层 的 没有 子 市 点 的 太太 叫 叶 (leaf)。 而 中 间 的 市 点 简单 地 称 为 非 叶 (nonleaf) 
节点 
二 


dVO 


在 层级 数据 中 ,你 可 能 需要 查询 与 整个 集合 或 其 子 集 相关 的 特定 对 象 ， 例 如 下 述 树 形 数 据 
结构 。 


组 织 染 构图 。 职 员 与 经 理 的 关系 是 典型 的 树 形 结构 数据 ， 出 现在 无 数 的 SQL 书籍 与 论题 中 。 
在 组 织 架 构图 中 ,每 个 职员 有 一 个 经 理 , 在 树 结构 中 表现 为 职员 的 父 市 尽 。 同 上 时， 经 理 也 古 
一 个 职员 。 


话题 型 讨论 。 正 如 引言 中 介绍 的 ， 树 形 结构 也 能 用 来 表示 回复 评论 的 评论 链 。 在 这 种 树 中 ， 
评论 的 子 方 扩 是 它 的 回复 。 


本 章 将 用 话题 型 讨论 作为 案例 来 讨论 反 模 式 及 其 解决 方案 。 
3.2 反 模 式 : 总 是 依赖 父 节点 


在 很 多 书籍 或 文章 中 , 最 第 见 的 简单 解决 方案 是 添加 parent_id 字段 ,引用 同一 张 表 中 的 其 
他 回复 。 可 以 建 一 个 外 键 约 束 来 维护 这 种 关系 。 下 面 是 表 的 定义 ， 图 3-1 是 实例 关系 图 。 


Trees/anti/adjacency -list.sql 








CREATE TABLE Comments (人 
comment_id SERIAL PRIMARY KEY ， 
parent_id BIGINT UNSIGNED ， 


bug_1d BIGINT UNSIGNED NOT NULL ， 
author BIGINT UNSIGNED NOT NULL ， 
comment_date DATETIME NOT NULL ， 
comment TEXT NOT NULL, 


FOREICN KEY (parent _ 1d) REFERENCES Comments (comment_1d), 
FOREIGN KEY (bug_ id) REFERENCES Bugs (bug_1id), 
FOREIGN KEY (author) REFERENCES Accounts(account_1d) 






Comments 
(评论 ) 


3-1 邻接 表 的 ERD 





到 灵 社 区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


20 区 第 3 章 单纯 的 树 


这 样 的 设计 叫做 邻接 表 。 这 可 能 是 程序 员 们 用 来 存储 分 层 结构 数据 中 最 普通 的 方案 了 。 下 
表 展 示 了 一 些 简 单 的 范例 数据 来 显示 评论 表 中 的 分 层 结构 数据 ， 同 时 图 3-2 展示 了 一 棵 该 结构 
的 树 。 





Comment_1d parent_id author comment 

1 NULL Fran 这 个 Bug 的 成 因 是 什么 
2 ] Ollie 我 觉得 是 一 个 空 指针 
b 2 Fran 不 ， 我 查 过 了 

4 ] Kukla 我 们 需要 但 无 效 输入 
5 4 Ollie 是 的 ， 那 是 个 问题 

6 4 Fran 好 ， 碍 一 下 吧 

7 6 Kukla 解决 了 





(1) Fran: 
这 个 Bug 的 成 因 
是 什么 











(2) Ollie: (4) Kukla: 
我 们 需要 得 无 效 


输入 












(5) Ollie: 
是 的 ， 那 是 个 问题 










(3) Fran: 
不 ， 我 符 过 了 


(0) Fran: 
好 ， 查 一 下 吧 





(7) Kukla: 
解决 了 










3-2 ”线程 化 讨论 示意 图 


3.2.1 使 用 邻接 表 查 询 树 


但 是 ， 束 算 如 此 多 的 程序 员 会 将 邻接 表 作 为 默认 的 解决 方案 ， 它 仍然 可 能 成 为 一 个 反 模 却 ， 
原因 在 于 它 无 法 完成 树 操 作 中 最 普通 的 一 项 : 碍 询 一 个 证 点 的 所 有 后 代 。 你 可 以 使 用 一 个 关联 得 
询 来 狂 取 一 条 评论 和 它 的 直接 后 代 : 
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Trees/anti/parent.sqgl 


SELECT cl1.x, C2 .大 
FROM Comments cl LEFT OUTER JOIN Comments c2 
ON c2.parent_ 1d = c1.comment 1d; 


然而 ， 这 个 查询 只 能 获 取 两 层 的 数据 。 树 的 特性 就 是 它 可 以 任意 识 地 扩展 ， 因 而 你 需要 有 方 
法 来 获取 任 半 深度 的 数据 。 比 如 ， 可 能 需要 计算 一 个 评论 分 支 的 数量 , 或 者 计算 一 个 机 械 设备 所 
有 部 分 的 总 开销 。 

当 你 使 用 邻接 表 的 时 候 , 这 样 的 得 询 会 变 得 很 不 优雅 , 因为 每 增加 一 层 的 查询 都 会 需要 额外 
扩展 一 个 联结 ， 而 SQL 查询 中 联结 的 次 数 是 有 上 限 的 。 如 下 的 查询 能 够 获得 四 层 数 据 ， 但 无 法 
时 多 了 : 


Trees/anti/ancestors.sql 








SELECT C1.x, CoO.*w, C3.%, C4.* 


FROM Comments cl -- lst level 
LEFT OUTER JOIN Comments c2 
ON c2.parent_ 1d = cl.comment_id -- 2nd level 
LEFT OUTER JOIN Comments c3 
ON c3.parent 1d = c2.comment id -- 3rd level 
LEFT OUTER JOIN Comments c4 
ON c4.parent 1d = c3.comment_1d; -- 4th level 


这 样 的 查询 很 笨拙 ， 因 为 伴随 着 未 渐 增 加 的 后 代 层 次 ， 必 须 同等 地 增加 联结 查询 的 列 。 这 使 
得 执行 一 个 聚合 函数 (比如 COUNTO) 变 得 极其 困难 。 

另 一 种 通过 邻接 表 来 获取 树 结 构 数 据 的 方法 是 ， 先 查 询 出 所 有 行 , 在 应 用 程序 中 上 自 顶 向 下 地 
重新 构造 出 这 棵 树 ， 然 后 再 像 树 一 样 使 用 这 些 数 据 。 


Trees/anti/all-comments.sdql 





SELECT * FROM Comments WHERE bug_ 1d = 1234; 

在 处 理 数 据 之 前 束 进 行 从 数据 库 到 应 用 程序 之 则 的 大 量 数据 复制 ,是 非常 低 效 的 , 你 可 能 仅 
仅 需 要 一 棵 子 树 ， 而 不 是 从 根 开始 的 完整 的 树 ; 或 者 可 能 仅仅 需要 这 些 数据 的 聚合 信息 ， 比 如 评 
论 的 总 数量 (使 用 COUNTO 函数 )。 
3.2.2 ”使 用 邻接 表 维 护 树 


无 可 舍 认 ， 一 些 操作 通过 邻接 表 来 实现 是 非常 方便 的 ， 比 如 增加 一 个 叶子 太太 : 


Trees/anti/insert.sqgl 





INSERT INTO Comments (bug_id, parent_1d, author, comment) 
VALUES (1234, 7, 'Kukla', 'Thanks!'); 


修改 一 个 市 点 的 位 置 或 者 一 棵 子 树 的 位 置 也 是 很 镜 单 的 : 
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Trees/anti/update.sql 


UPDATE Comments SET parent 1d = 3 WHERE Comment 1d = 6; 
然而 ， 从 一 棵 树 中 删除 一 个 市 点 会 变 得 比较 复杂 。 如 果 需 要 删除 一 棵 子 树 ， 你 不 得 不 执行 多 





次 查询 来 找到 所 有 的 后 代 市 态 ， 然 后 逐个 从 最 低级 别 开 始 删 除 这 些 廊 扩 以 满足 外 键 完整 性 。 


Trees/anti/delete-subtree.sqgl 


SELECT comment 1d FROM Comments WHERE parent _ 1d = 4; -- returns 5 and 6 
SELECT comment_1d FROM Comments WHERE parent 1d = 5; -- returns none 
SELECT comment_ 1d FROM Comments WHERE parent 1d = 6; -- returns 7 
SELECT comment_1d FROM Comments WHERE parent_ 1d = 7; -- returns none 
DELETE FROM Comments WHERE Comment 1d IN (7 ); 

DELETE FROM Comments WHERE comment id IN ( 5, 6 ); 


DELETE FROM Comments WHERE comment _1d 








可 以 使 用 一 个 市 ON DELETE CASCADE 修饰 符 的 外 键 约束 来 目 动 完成 这 些 操作 ， 只 要 能 肯定 确 
征 要 删除 这 些 贡 点 ， 而 不 是 修改 它们 的 位 置 。 


假如 想 要 删除 一 个 非 叶 子 节 点 并 且 提 升 它 的 子 节 点 ， 或 者 将 它 的 子 节 点 移动 到 另 一 个 节点 
那么 首先 要 修改 子 市 点 的 parent_id， 然 后 才能 删除 那个 节点 。 


Trees/anti/delete-non-leat.sql 


SELECT parent_1d FROM Comments WHERE comment_ 1d = 6; -- returns 4 
UPDATE Comments SET parent 1d = 4 WHERE parent 1d = 6; 


DELETE FROM Comments WHERE comment 1d = 6; 


这 些 都 是 使 用 邻接 表 时 需要 多 步 操 作 才 能 完成 的 查询 范例 ,你 不 得 不 写 很 多 额外 的 代码 ,而 





其 实数 据 库 设计 本 身 就 能 做 得 很 向 单 和 高 效 。 
3.3 如何 识 别 反 模式 





如 果 听 到 了 如 下 的 问题 ， 可 能 你 正在 使 用 “单纯 的 树 ” 这 种 反 模 式 。 


D “我 们 的 树 结构 要 文 持 多 少 层 ?， 
你 正 证 结 于 不 使 用 递归 查询 获取 一 个 给 定 市 尽 的 所 有 人 租 先 或 者 后 代 。 你 做 出 让 步 ， 只 
持 有 限 层 级 数据 的 所 有 的 操作 ， 然 后 紧 接 着 的 一 个 很 目 然 的 问题 就 是 : 多 少 层 才 足够 满 


D “我 总 是 很 人 接触 那些 管理 树 结构 的 代码 。 

你 已 经 采用 了 一 种 管理 分 层 数据 的 比较 复杂 的 方法 ， 但 使 用 的 是 错误 的 方法 。 每 一 项 技 
术 都 会 使 得 一 些 任务 变 得 很 简单 ， 但 通常 是 以 其 他 的 任务 变 得 更 复杂 作为 代价 的 。 你 可 
能 选择 了 在 应 用 程序 设计 中 并 不 征 最 佳 的 方案 来 管理 这 些 分 层 数据 。 
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D “我 需要 一 个 脚本 来 定期 地 清理 树 中 的 抓 立 太 点 数据 。 
你 的 应 用 程序 因为 删除 了 非 叶 子 证 态 而 产生 了 一 些 迷 失 市 把。 在 数据 库 中 存储 了 一 些 复 
杂 的 结构 时 ， 需 要 确保 在 任何 改变 之 后 ， 这 个 结构 都 处 在 一 致 的 、 有 效 的 状态 下 。 你 可 
以 使 用 本 量 后 面 所 摘 述 的 任何 解决 方案 ， 同 时 配合 触发 占 、 级 联 外 键 等 ， 来 使 得 数据 存 
储 的 结构 更 加 适合 项 目 需求 ， 尽 可 能 少 地 产生 零碎 的 数据 。 


3.4 合理 使 用 反 模 式 


某 些 情况 下 , 在 应 用 程序 中 使 用 邻接 表 设 计 可 能 正好 适用 。 邻 接 表 设计 的 优势 在 于 能 快速 地 
获取 一 个 给 定 节 点 的 直接 父子 节点 ， 它 也 很 容易 插入 新 节点 。 如 果 这 样 的 需求 就 是 你 的 应 用 程序 
对 于 分 层 数 据 的 全 部 操作 ， 那 使 用 邻接 表 就 可 以 很 好 地 工作 了 。 

不 要 过 度 设计 

我 曾经 为 一 个 计算 机 数据 中 心 写 过 一 个 库存 跟踪 程序 。 一 些 器 材 安装 在 电脑 主机 内 

部 。 比 如 缓存 磁盘 控制 器 是 装 在 一 个 机 架 服务 器 里 面 的 , 扩展 内 存 模 块 是 装 在 磁盘 控制 

器 上 的 ， 等 等 。 

我 需要 一 个 简单 的 数据 库 解 决 方案 , 来 追踪 那些 包含 了 其 他 小 部 件 的 大 设备 的 使 用 

情况 ,同时 也 需要 追踪 每 个 独立 部 件 的 情况 ， 并 给 出 关于 设备 使 用 情况 、 折 旧 状 态 以 及 

投资 收益 座 的 报表 。 

项 目 经 理 认为 大 的 部 件 包含 了 一 系列 其 他 部 件 ， 同 时 这 些 部 件 还 能 再 包含 更 小 的 

部 件 ， 因 而 数据 结构 上 这 种 层级 关系 可 以 是 任意 深度 的 。 最 终 那 花 了 我 几 个 星期 的 时 

间 来 调整 代码 ， 以 便 让 这 棵 树 很 好 地 适应 数据 库 、 用 户 界面 、 管 理 员 界 面 和 最 终生 成 

的 报表 。 

然而 在 实际 生产 过 程 中 ， 这 个 库存 系统 从 来 不 曾 有 哪些 设备 间 的 关系 达到 两 层 议 

套 ， 都 是 简单 的 父 - 子 关系 而 已 。 如 果 我 的 最 终 用 户 能 在 一 开始 就 确认 两 层 的 关系 足够 

满足 产品 的 需求 ， 那 么 我 们 可 以 减少 很 大 一 部 分 的 工作 量 。 


未 些 品 牌 的 数据 库 管理 系统 提供 扩展 的 SQL 语句 ， 来 支持 在 邻接 表 中 存储 分 层 数 据 结 构 。 
SQL-99 标准 定义 了 递归 查询 的 表达 式 规 疙 ,使 用 WITH 关键 字 加 上 公共 表 表 达 式 。 


Trees/legit/cte.sql 








WITH CommentTree 
CCcomment_ 1d，bug_ id，parent_ 1d, author, comment, depth) 
AS 人 
SELECT *, 0 AS depth FROM Comments 
WHERE parent_1d IS NULL 
UNION ALL 
SELECT c.*x, ct.depth+l1 AS depth FROM CommentTree ct 
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JOIN Comments c ON (ct .Comment 1d = c.parent_1d) 

) 

SELECT * FROM CommentTree WHERE bug_ 1d = 1234; 

Microsoft SQL Server 2005、Oracle 1leR2、IBM DB2 和 PostgreSQL 8.4 都 支持 使 用 如 上 的 查 
询 表 达 却 来 进行 递归 查询 。 

和 Oracle 10g 一 样 ，MySQL、SQLite 和 Infomix 是 少数 几 个 暂时 还 不 支持 这 种 表达 式 的 数据 
库 ， 它 们 都 被 广泛 地 应 用 。 了 也许 我 们 可 以 假设 将 来 递归 查询 语法 将 被 所 有 的 主流 数据 库 所 支持 ， 
那么 使 用 邻接 表 的 设计 也 不 会 再 受到 这 么 多 限制 了 。 

Oracle 9i 和 10g 也 支持 WITH 子 句 ， 但 并 不 是 在 递归 查询 时 使 用 的 。 它 们 有 着 目 己 特殊 的 话 
法 定义 : START WITH 和 CONNECT BY PRIOR 。 








Trees/legit/connect-by.sql 


SELECT xx FROM Comments 
START WITH comment 1d = 9876 
CONNECT BY PRIOR parent_1d = comment 1d ; 


3.5 解决 方案 : 使 用 其 他 树 模型 


有 儿 种 方案 可 以 代替 邻接 表 模 型 ， 包括 路 径 枚 举 、 吝 套 集 以 及 闭 包 表 。 接 下 来 我 将 分 三 段 来 
展示 这 三 种 设计 方案 是 如 何 解决 3.2 市 中 所 搬 述 的 存储 和 查询 树 型 评论 的 问题 的 。 

这 些 解决 方案 通常 是 这 样 的 : 首先 可 能 看 上 去 比邻 接 表 复杂 很 多 , 但 它们 的 确 使 得 某 些 使 用 
邻接 表 比 较 复 杂 或 者 很 低 效 的 操作 变 得 更 借 单 。 如 有 果 你 的 应 用 程序 确实 需要 提供 这 些 操 作 ， 那 么 
这 些 设计 会 是 比邻 接 表 更 好 的 选择 。 

3.5.1 路 径 枚 举 

邻接 表 的 缺点 之 一 是 从 树 中 获取 一 个 给 定 市 点 的 所 有 祖先 的 开销 很 大 。 路 径 枚 举 的 设计 通 
过 将 所 有 祖先 的 信息 联合 成 一 个 字符 串 ， 并 保存 为 每 个 节点 的 一 个 属性 ， 很 巧妙 地 解决 了 这 个 
问题 。 

路 径 枚 举 是 一 个 由 连续 的 直接 层级 关系 组 成 的 完整 路 符 。 如 /usr/1local/1ib 的 UNIX 路 径 
是 文件 系统 的 一 个 路 径 枚 举 ， 其 中 usr 是 1ocal 的 父亲 ， 这 也 就 意味 着 usr 是 1ib 的 祖先 。 

在 Comments 表 中 ， 我 们 使 用 类 型 为 VARCHAR 的 path 字段 来 代 赫 原来 的 parent_id 字段 。 
这 个 path 字段 所 存储 的 内 容 为 当前 节点 的 最 顶层 的 祖先 到 它 自己 的 序列 ， 就 像 UNIX 的 路 径 一 
样 ， 你 甚至 可 以 使 用 “/” 作 为 路 径 中 的 分 割 符 。 


Trees/soln/path-enum/create-table.sql 





CREATE TABLE Comments ( 
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Comment_1d SERIAL PRIMARY KEY ， 


path VARCHAR(1000 ) ， 

bug_1d BIGINT UNSIGNED NOT NULL ， 
author BIGINT UNSIGNED NOT NULL, 
comment_date DATETIME NOT NULL, 
comment TEXT NOT NULL, 


FOREIGN KEY (bug_id) REFERENCES Bugs (bug_1id), 
FOREIGN KEY (author) REFERENCES Accounts(account_1id) 


网 

Comment_1d path author comment 

2 1/2/ Olle 我 觉得 是 一 个 空 指针 
3 1/2/3/ Fran 不 ， 我 查 过 了 

4 1/4/ Kukla 我 们 需要 但 无 效 输入 
5S 1/4/5/ Ollie 是 的 ， 那 是 个 问题 
0 1/4/6/ Fran 好 ， 碍 一 下 吧 

7 1/4/6/7/ Kukla 解决 了 


你 可 以 通过 比较 每 个 贡 点 的 路 径 来 查询 一 个 而 点 的 祖先 。 比 如 ， 要 找到 评论 放 一 一 路 径 是 
1/4/6/7 一 一 的 和 祖先， 可 以 这 样 做 : 
Trees/soln/path-enum/ancesiors.sdql 


SELECT * 
FROM Comments AS c 
WHERE "1/4/6/7/'" LIKE c.path || '%'; 


这 人 句 查 询 语句 会 匹配 到 路 径 为 /4/6/%、1/4/% 以 及 1/% 的 市 点 ， 而 这 些 市 点 就 是 评论 #7 的 祖先 。 
同时 还 可 以 通过 将 LIKE 关键 字 两 边 的 参数 互 换 ， 来 查询 一 个 给 定 节点 的 所 有 后 代 。 比 如 查 
找 评 论 检 一 一 路 任 为 /4 一 一 的 所 有 后 代 ， 可 以 使 用 如 下 的 语句 : 
Trees/soln/path-enum/descendants.sql 


SELECT * 
FROM Comments AS c 
WHERE c.path LIKE ‘1/4/" || '%'; 


这 人 句 碍 询 语句 所 找到 的 后 代 的 路 径 分 别 征 1/4/5、1/4/6 以 及 1/4/6/7。 

一 旦 你 可 以 很 简单 地 获取 一 棵 子 树 或 者 从 子孙 廊 点 到 祖先 市 点 的 路 径 ， 就 可 以 很 倍 单 地 实 
现 更 多 的 查询 ， 比 如 计算 一 棵 子 树 所 有 方 点 上 的 值 的 总 和 (使 用 SUM 聚合 图 数 )， 或 者 仅仅 是 单 
纯 地 计算 市 点 的 数量 。 如 琳 要 计算 从 评论 覆 扩展 出 的 所 有 评论 中 每 个 用 户 的 评论 数量 ， 可 以 这 
样 伏 : 


Trees/soIn/path-enum/count.sql 





SELECT COUNT(*x) 
FROM Comments AS c 
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WHERE c.path LIKE 1/4/" || '%' 
GROUP BY c.author; 


插入 一 个 证 点 也 可 以 像 使 用 邻接 表 一 样 地 简单 。 可 以 插入 一 个 叶子 证 点 而 不 用 修改 任何 其 他 
的 行 。 你 所 需要 做 的 只 古 复 制 一 份 要 插入 市 后 的 逻辑 上 的 父 杀 万 扩 的 路 任 , 并 将 这 个 新 太 扩 的 有 D 
追加 到 路 径 末 尾 就 行 了 。 如 有 果 这 个 有 D 是 在 插入 时 自动 生成 的 ， 你 可 能 需要 先 插入 这 条 记录 ， 然 
后 获取 这 条 记录 的 了 ， 并 更 新 它 的 路 径 。 比 如 ， 你 使 用 的 是 MySQL ， 它 的 内 置 国 数 
LAST_INSERT_IDGO 会 返回 当前 会 话 的 节 新 一 条 揪 入 记录 的 也， 通过 调用 这 个 国 数 ， 便 可 以 获得 
你 所 需要 的 DD， 然 后 就 可 以 通过 新 方 扩 的 父亲 太 扩 来 获取 完整 的 路 任 了 。 

Trees/soln/path-enum/insert.sql 
INSERT INTO Comments (author, comment) VALUES ('Ollie', 'Good Jjob!'); 
UPDATE Comments 

SET path = (SELECT path FROM Comments WHERE comment _1d = 7) 


|| LAST_INSERT_IDGO || /A 
WHERE comment_1d = LAST_ INSERT ID(CD ; 


路 径 枚 举 的 方案 也 存在 这 一 些 缺 点 ， 比 如 束 存 在 第 2 音 “ 乱 军马 路 ”中 所 摘 述 的 缺点 : 数据 
库 不 能 确保 路 径 的 格式 总 是 正确 或 者 路 径 中 的 节点 确实 存在 。 依 赖 于 应 用 程序 的 逻辑 代码 来 维护 
路 径 的 字符 串 , 并 且 验 证 字符 串 的 正确 性 的 开销 很 大 。 无 论 将 VARCHAR 的 长 度 设 定 为 多 大 , 依旧 
存在 长 度 限制 ， 因 而 并 不 能 够 支持 树 结 构 的 无 限 扩展 。 

路 径 枚 举 的 设计 方式 能 够 很 方便 地 根据 节点 的 层级 排序 , 因为 路 径 中 分 隔 符 两 边 的 节点 间 的 
距离 永远 是 1， 因 此 通过 比较 字符 串 长 度 就 能 知道 层级 的 次 小 。 


3.5.2” 册 套 集 


租 套 集 解 决 方案 是 存 储 子 孙 克 点 的 相关 信息 ,而 不 是 菠 点 的 直接 祖先 。 我 们 使 用 两 个 数字 来 
编码 每 个 证 点 ， 从 而 表示 这 一 信息 ， 可 以 将 这 两 个 数字 称 为 nsleft 和 nsright。 


Trees/soln/nested-sets/create-table.sql 








CREATE TABLE Comments ( 
comment_1id SERIAL PRIMARY KEY ， 


nsleft INTEGER NOT NULL ， 

nsright INTEGER NOT NULL ， 

bug_1d BIGINT UNSIGNED NOT NULL ， 
author BIGINT UNSIGNED NOT NULL ， 
comment_date DATETIME NOT NULL ， 
comment TEXT NOT NULL, 


FOREICN KEY (bug_1id) REFERENCES Bugs (bug_1id), 
FOREIGN KEY (author) REFERENCES Accounts(account_1d) 








每 个 证 点 通过 如 下 的 方式 确定 nsleft 和 nsright 的 值 :nsleft 的 数值 小 于 该 市 点 所 有 后 
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代 的 ID, 同时 nsright 的 值 大 于 该 市 点 所 有 后 代 的 了。 这些 数字 和 comment_id 的 值 并 没有 任 
何 关 联 。 
确定 这 三 个 值 (nsleft，comment_id，nsrigh) 的 人 简单 方法 是 对 树 进 行 一 次 深度 优先 遍历， 
在 逐 层 深 入 的 过 程 中 依次 递增 地 分 配 nsleft 的 值 ， 并 在 返回 时 依次 递增 地 分 配 nsright 的 值 。 
通过 图 3-3 可 以 简单 地 想象 出 这 样 的 分 配方 式 。 














(1) Fran: 
这 个 Bug 的 成 
因 是 什么 







(2) Ollie: 
我 觉得 是 一 个 
空 指针 










(4) Kukla: 
我 们 需要 得 
无 效 输入 

















(5) Ollie: 
是 的 ， 那 是 


个 问题 








(0) Fran: 
好 》 生平 吧 


(3) Fran: 
不 ， 我 肥 过 了 


(7) Kukla: 
解决 了 


10 11 





3-3 ”上 般 套 集 示意 图 


Comment_1d nsleft nsright author comment 

1 1 14 Fran 这 个 Bug 的 成 因 是 什么 
2 2 3 Olle 我 觉得 是 一 个 空 指针 
3 3 4 Fran 不 ， 我 查 过 了 

4 0 lS Kukla 我 们 需要 得 无 效 输入 
了 8 Olhe 是 的 ， 那 是 个 问题 

0 9 12 Fran 好 ， 查 一 下 吧 

9 10 11 Kukla 解决 了 


一 旦 你 为 每 个 方 扣 分 配 了 这 些 数 字 , 就 可 以 使 用 它们 来 找到 给 定 习 点 的 祖先 和 后 代 。 比 如 ， 
可 以 通过 搜索 哪些 市 后 的 ID 在 评论 才 的 nsleft 和 nsright 交 围 之 间 来 获取 评论 覆 及 其 所 有 
J 

Trees/soln/nested-sets/descendants.sql 


SELECT c2.* 
FROM Comments AS cl 
JOIN Comments as c2 
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ON c2.nsleft BETWEEN cil.nsleft AND cil.nsright 
WHERE cl.comment_1d = 4; 


通过 搜索 评论 #6 的 DD 在 哪些 市 点 的 nsleft 和 nsright 范围 乙 内 ， 可 以 获取 评论 及 其 所 
有 祖先 : 
Trees/soln/nested-sets/ancestors.sql 


SELECT C2 .x 
FROM Comments AS cl 
JOIN Comment AS c2 
ON cl.nsleft BETWEEN c2.nsleft AND c2.nsright 
WHERE cl.comment_ 1d = 6; 


使 用 租 套 集 设计 的 主要 优势 便 是 ,， 当 你 想 要 删除 一 个 非 叶子 区 点 时 ， 它 的 后 代 会 日 动 地 代 符 
被 删除 的 市 操 ,， 成 为 其 直接 祖先 市 上 操 的 直接 后 代 。 尽 省 每 个 市 操 的 左右 两 个 值 在 示例 图 中 古 有 序 
分 配 ， 而 每 个 太 扩 也 总 古 和 它 相 邻 的 父兄 市 尽 进行 比较 ， 但 仍 僚 集 设计 并 不 必须 保存 分 层 关 系 。 
因而 当 删 除 一 个 证 点 千 成 数值 不 连续 时 ， 并 不 会 对 树 的 结构 产生 任何 有 影 啊 。 

比如 ,你 可 以 计算 给 定 习 扩 的 深度 然后 删除 它 的 父亲 王 护 ， 随 后 ， 当 你 再 次 计算 这 个 市 皮 的 
深度 的 时 候 ， 它 已 经 自动 减少 了 一 层 。 

Trees/soln/nested-sets/depth.sql 


-- Reports depth = 3 
SELECT cl1.comment_1d, COUNT(c2.comment_1id) AS depth 
FROM Comment AS cl 
JOIN Comment AS c2 
ON cl.nsleft BETWEEN c2.nsleft AND c2.nsright 
WHERE cl.comment 1d = 7 
GROUP BY cl1.comment_1id; 


DELETE FROM Comment WHERE comment 1d = 6; 


-- Reports depth = 2 
SELECT cl1.comment_1id, COUNT(c2.comment_1d) AS depth 
FROM Comment AS cl 
JOIN Comment AS c2 
ON cl.nsleft BETWEEN c2.nsleft AND c2.nsright 
WHERE cl.comment 1d = 7 
GROUP BY c1.comment 1d ; 


然而 ， 某 些 在 邻接 表 的 设计 中 表现 得 很 简单 的 查询， 比如 获取 一 个 节点 的 直接 父亲 或 者 直接 
后 代 , 在 髓 僚 集 的 设计 中 会 变 得 比较 复杂 。 在 父 僚 集中 ， 如 来 需 要 查询 一 个 市 把 的 直接 父亲 ， 我 
们 会 这 么 做 : 给 定 市 点 cl 的 直接 父亲 古 这 个 市 尽 的 一 个 租 先 ， 且 这 两 个 市 反之 间 不 应 该 有 任何 
其 他 的 市 点 ， 因 此 ， 你 可 以 用 一 个 递归 的 外 联结 来 查询 一 个 市 尽 Xx， 它 即 是 cl 的 祖先 ， 也 同时 
是 另 一 个 市 点 的 后 代 ,， 随后 我 们 使 Y=x 并 继续 查询 ， 直 到 查询 返回 空 ， 即 不 存在 这 样 的 市 点 ， 
此 时 的 Y 便 是 cl 的 直接 父 杀 市 抬 。 
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比如 ， 要 找到 评论 # 的 直接 父亲 ， 你 可 以 这 样 做 : 
Trees/soln/nested-sets/parent.sql 


SELECT parent.* 
FROM Comment AS c 
JOIN Comment AS parent 
ON c.nsleft BETWEEN parent.nsleft AND parent.nsright 
LEFT OUTER JOIN Comment AS in_between 
ON c.nsleft BETWEEN in_between.nsleft AND in_between.nsright 
AND in_between.nsleft BETWEEN parent.nsleft AND parent.nsright 
WHERE C.Comment 1d = 6 
AND 1n_between.comment 1d IS NULL ; 


对 树 进 行 操作 ， 比 如 插入 和 移动 节点 ， 使 用 肯 套 集会 比 其 他 的 设计 复杂 很 多 。 当 插入 一 个 新 
市 入 时 ,你 需要 重新 计算 新 插入 市 护 的 相 邻 叶 第 市 态 、 和 祖先 廊 护 和 它 得 先 廊 所 的 兄弟 ， 来 确保 它 
们 的 左右 值 都 比 这 个 新 市 扩 的 左 值 大 。 同 时 ， 如 来 这 个 新 廊 扩 古 一 个 非 叶 子 廊 态 ， 你 还 要 检查 它 
的 子孙 市 点 。 假 设 新 插入 的 市 尽 是 一 个 叶子 市 态 ， 如 下 的 语句 可 以 更 新 每 个 需要 更 新 的 地 方 : 
Trees/soln/nested-sets/insert.sql 


-- make space for NS values 8 and 9 
UPDATE Comment 
SET nsleft = CASE WHEN nsleft >= 8 THEN nsleft+2 ELSE nsleft END, 
nsright = nsright+2 
WHERE nsright >= 7; 


-- Create new child of comment #5, occupying NS values 8 and 9 
INSERT INTO Comment (nsleft, nsright, author, comment) 
VALUES (8, 9, 'Fran', 'Me too!'); 


如 末 倍 单 快速 地 查询 是 整个 程序 中 最 重要 的 部 分 ， 舱 人 套 集 是 最 佳 选 择 一 一 比 操作 单独 的 市 
点 要 方便 快捷 很 多 。 然 而 ， 上 租 套 集 的 插入 和 移动 市 点 是 比较 复杂 的 ， 因 为 需要 重新 分 配 磊 右 值 ， 
如 末 你 的 应 用 程序 需要 频 营 的 插入 、 删 除 广 上 后， 那么 髓 套 集 可 能 并 不 适合 。 


3.5.3” 闭 包 表 


闭 包 表 是 解决 分 级 存储 的 一 个 简单 而 优雅 的 解决 方案 , 它 记 录 了 树 中 所 有 市 点 间 的 关系 ,而 
不 仅仅 只 有 那些 直接 的 父子 关系 。 


在 设计 评论 系统 时 , 我 们 额外 创建 了 一 张 叫做 TreePaths 的 表 ， 它 包含 两 列 ， 每 一 列 都 是 一 
个 指 则 Comments 中 comment_id 的 外 键 。 
Trees/soln/closure-table/create-table.sql 


CREATE TABLE Comments ( 
Comment 1d SERIAL _ PRIMARY KEY ， 
bug_1d BIGINT UNSIGNED NOT NULL ， 
author BIGINT UNSIGNED NOT NULL ， 
comment_date DATETIME NOT NULL ， 
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comment TEXT NOT NULL, 

FOREIGN KEY (bug_id) REFERENCES BugsCbug id) ， 

FOREIGN KEY (author) REFERENCES Accounts(account_1d) 
2 


CREATE TABLE TreePaths ( 
ancestor BIGINT UNSICNED NOT NULL ， 
descendant BIGINT UNSIGNED NOT NULL ， 
PRIMARY KEY(ancestor, descendant), 
FOREIGN KEY (ancestor) REFERENCES Comments (comment_1d), 
FOREIGN KEY (descendant) REFERENCES Comments(comment_1d) 
2) 


我 们 不 再 使 用 Comments 表 来 存储 树 的 结构 ,而 古 将 树 中 任何 有 具有 祖先 -后 代 关 系 的 市 尽 对 
邦 存 储 在 TreePaths 表 有 的 一 行 中 ,即使 这 两 个 市 把 之 间 不 十 直接 的 父子 关系 ; 同时 ,我 们 还 增加 
一 行 指 同 贡 点 目 己 。 更 形象 的 表示 可 以 参考 图 3-4。 








祖 先 后 代 祖 先 后 代 祖 先 后 代 
1 1 1 7 4 6 
1 2 2 2 4 7 
1 3 2 3 : 5 
1 4 3 3 6 6 
1 5 4 4 6 四 
1 6 4 5 7 















(1) Fran: 
这 个 Bug 的 成 
ee 因 是 什么 


Mm Ca 


~ 





(4) Kukla: 
我 们 需要 查 无 效 


~ 


Sg 













(5) Ollie: 
是 的 ， 那 是 


个 问题 





(3) Fran: 
不 ， 我 得 过 了 


(0) Fran: 
好 ， 查 一 下 吧 


Me 


(7) Kukla: 
解决 了 


3-4” 闭 包 表 示意 图 
通过 TreePaths 表 来 获取 祖先 和 后 代 比 使 用 骸 僚 集 更 加 地 直接 。 例如 要 获取 评论 二 的 后 代 ， 
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只 需要 在 TreePaths 表 中 搜索 祖先 是 评论 妊 的 行 就 可 以 了 : 
Trees/soln/closure-table/descendants.sql 


SELECT EC 过 
FROM Comments AS < 

JOIN TreepPaths AS t ON c.comment 1d = t.descendant 
WHERE t.ancestor = 4; 


要 获取 评论 #6 的 所 有 祖先， 只 需要 在 TreePaths 表 中 搜索 后 代为 评论 #6 的 行 就 可 以 了 : 
Trees/soln/closure-table/ancestors.sql 


SELECT C .xx 
FROM Comments AS < 

JOIN TreepPaths AS t ON c.comment 1d = 七 .ancestor 
WHERE 七 .descendant = 6; 


要 插入 一 个 新 的 时 子玉 点， 比如 评论 状 的 一 个 子 证 把 ， 应 首先 插入 一 条 目 己 到 目 己 的 关系 ， 
然后 搜索 TreePaths 表 中 后 代 征 评论 多 的 市 尽 ， 增 加 该 市 避 和 新 插入 市 点 的 “人 祖先- 后代” 关系 
(包括 评论 交 的 自我 引用 ): 


Trees/soln/closure-table/insert.sql 








INSERT INTO TreePaths (ancestor, descendant) 
SELECT t.ancestor, 8 
FROM TreePaths AS t 
WHERE 七 .descendant = 5 
UNION ALL 
SELECT 8，8; 


要 删除 一 个 叶子 贡 点 ， 比 如 评论 多， 应 删除 所 有 TreePaths 表 中 后 代为 评论 #7 的 行 : 
Trees/soIn/closure-table/delete-leat.sql 
DELETE FROM TreePaths WHERE descendant = 7; 
要 删除 一 棵 完整 的 子 树 ， 比 如 评论 十 和 它 所 有 的 后 代 ， 可 删除 所 有 在 TreePaths 表 中 后 代 
为 覆 的 行 ， 以 及 那些 以 评论 才 的 后 代为 后 代 的 行 : 
Trees/soIn/closure-table/delete-subtree.sql 


DELETE FROM TreePaths 

WHERE descendant IN (SELECT descendant 
FROM TreePaths 
WHERE ancestor = 4) 


请 和 广 意 ， 如 采 你 删除 了 TreePahts 中 的 一 条 记录 ， 并 不 是 真正 删除 了 这 条 评论 。 这 对 于 评论 
系统 这 个 例子 来 说 可 能 很 奇怪 , 但 它 在 其 他 类 型 的 树 形 结构 的 设计 中 会 变 得 比较 有 意义 。 比 如 在 
产品 目录 的 分 类 或 者 员工 组 织 架 构 的 图 表 中 ， 当 你 改变 了 市 点 关系 的 时 候 , 并 不 古 真 地 想 要 删除 
一 个 市 把。 我 们 把 关系 路 径 存 储 在 一 个 分 开 独 立 的 表 中 ， 使 得 设计 更 加 灵活 。 


要 从 一 个 地 方 移动 一 棵 子 树 到 另 一 地 方 , 首先 要 断 开 这 棵 子 树 和 它 的 祖先 们 的 关系 , 所 需 
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做 的 就 是 找到 这 棵 子 树 的 顶点 ,删除 它 的 所 有 子 贡 点 和 它 的 所 有 祖先 菠 点 间 的 关系 。 比 如 将 评论 
#6 从 它 现 在 的 位 置 〈 评 论 妈 的 孩子 ) 移动 到 评论 的 下 ， 首 先 做 如 下 的 删除 (确保 别 把 评论 #6 的 
自我 引用 删 掉 )。 

Trees/soln/closure-table/move-subtree.sql 


DELETE FROM TreePaths 
WHERE descendant IN (SELECT descendant 
FROM TreePaths 
WHERE ancestor = 6) 
AND ancestor IN (SELECT ancestor 
FROM TreePaths 
WHERE descendant = 6 
AND ancestor != descendant); 


查询 评论 #6 的 祖先 (不 包含 评论 # 目 身 ) ， 以 及 评论 此 的 后 代 〈 包 括 评论 此 自身 )， 然 后 删 
除 它们 之 间 的 关系 ， 这 将 正确 地 移 除 所 有 从 评论 #6 的 祖先 到 评论 #6 和 它 的 后 代 之 间 的 路 人 符 。 换 
言 之 ， 这 就 删除 了 路 径 (1, 6)、(1,7)、(4, 6) 和 (4, 7)， 并 且 它 不 会 删除 (6, 6) 或 (6, 7)。 


然后 将 这 棵 孤立 的 树 和 新 节点 及 它 的 祖先 建立 关系 。 可 以 使 用 CROSS JOIN 语句 来 创建 一 个 
新 方 点 及 其 祖先 和 这 棵 抓 立 的 树 中 所 有 垃 点 间 的 第 卡 儿 积 来 建立 所 有 需要 的 关系 。 


Trees/soln/closure-table/move-subtree.sql 





INSERT INTO TreePaths (ancestor, descendant) 
SELECT supertree.ancestor, subtree.descendant 
FROM TreePaths AS supertree 

CROSS JOIN TreePaths AS subtree 
WHERE supertree.descendant = 3 
AND subtree.ancestor = 6; 


这 样 就 创建 了 评论 霹 及 它 的 所 有 祖先 方 扣 到 评论 #6 及 其 所 有 后 代 之 间 的 路 径 。 因 此 ,新 的 路 
径 是 : (1, 6)、(2, 6)、G3, 6)、(1, 7)、(2, 7)、(3, 7)。 同 时 ， 评 论 #6 为 硕 挟 的 这 棵 子 树 就 成 为 了 评论 
#3 的 后 代 。 香 卡 儿 积 能 创建 所 有 需要 的 路 径 ， 即 使 这 棵 子 树 的 层级 在 移动 过 程 中 发 生 了 改变 。 


闭 包 表 的 设计 比 骨 人 套 集 更 加 地 直接 ,两 者 都 能 快捷 地 查询 给 定 太 扩 的 祖先 和 后 代 , 但 是 团 包 
表 能 更 加 人 简单 地 维护 分 层 信 息 。 这 两 个 设计 都 比 使 用 邻接 表 或 者 路 径 枚 举 更 方便 地 查询 给 定 证 
点 的 直接 后 代 和 父 代 。 


然而 , 你 可 以 优化 团 包 表 来 使 它 更 方便 地 查询 直接 父亲 市 点 或 子 习 点 : 在 TreePaths 表 中 增 
加 一 个 path_length 字段 。 一 个 市 点 的 自我 引用 的 path_length 为 0， 到 它 直 接 子 市 点 的 
path_length 为 1， 再 下 一 层 为 2， 以 此 类 推 。 查 询 评论 覆 的 子 市 点 就 变 得 很 直接 : 
Trees/soln/closure-table/child.sqgl 


SELECT * 
FROM TreePaths 
WHERE ancestor = 4 AND path_length = 工 ; 
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3.5.4 ”你 该 使 用 哪 种 设计 

每 种 设计 都 各 有 优 劣 ,如何 选择 设计 依赖 于 应 用 程序 中 的 哪 种 操作 最 需要 性 能 上 的 优化 。 在 
图 3-5 中 ， 操 作 依据 每 种 树 的 设计 被 标记 为 简单 或 者 困难 。 你 也 可 以 参考 以 下 列 出 的 每 种 设计 的 
优 缺 点 。 


设 计 表 查询 子 查询 树 插 入 删 除 引用 完整 性 
邻接 表 1 简单 困难 简单 简单 是 
递归 查询 1 人 简单 简单 人 简单 简单 是 
枚 举 路 径 1 简单 简单 简单 简单 否 
幢 套 集 1 困难 简单 困难 困难 否 
闭 包 表 2 简单 简单 简单 简单 是 


3-5 ”层级 数据 设计 比较 


口 邻接 表 是 最 方便 的 设计 ， 并 且 很 多 软件 开发 者 都 了 解 它 。 
D 如 果 你 使 用 的 数据 库 支持 WITH 或 者 CONNECT BY PRIOR 的 递归 查询 ， 那 能 使 得 邻接 表 的 
查询 更 为 高 效 。 
口 枚 举 路 径 能 够 很 直观 地 展示 出 祖先 到 后 代 之 间 的 路 径 ， 但 同时 由 于 它 不 能 确保 引用 完整 
性 ， 使 得 这 个 设计 非常 地 脆弱 。 枚 举 路 径 也 使 得 数据 的 存储 变 得 比较 元 余 。 
口 点 套 集 是 一 个 聪明 的 解决 方案 一 一 但 可 能 过 于 聪明 了 ， 它 不 能 确保 5| 用 完整 性 。 最 好 在 
一 个 查询 性 能 要 求人 很 高 而 对 其 他 需求 要 求 一 般 的 场合 来 使 用 它 。 
口 闭 包 表 是 最 通用 的 设计 ， 并 且 本 章 所 描述 的 设计 中 只 有 它 能 允许 一 个 节点 属于 多 棵 树 。 
它 要 求 一 张 额外 的 表 来 存储 关系 ， 使 用 空间 换 时 间 的 方案 减少 操作 过 程 中 由 元 余 的 计算 
所 造成 的 消耗 。 
关于 存储 和 操作 SQL 中 的 分 层 数 据 有 很 多 东西 可 以 说 。Jeo Celko 的 Trees and Hierarchies in 
SOL for Smarties[Cel04] 是 一 本 介绍 分 层 查 询 的 好 书 ， 男 一 本 讲解 了 树 及 图 论 的 书 是 SOL Design 
Patterns[Tro06]， 作 者 是 Vadim Tropashko。 后 者 更 加 正规 及 理论 化 。 





一 个 分 层 数 据 结构 包含 了 数据 项 和 它们 之 间 的 关系 。 
需要 合理 的 设计 两 者 的 模型 来 配合 你 的 工作 ，。 
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外 面 的 生物 从 猪 看 到 人 ， 从 人 看 到 猪 ， 再 从 猪 看 到 人 ,但 它们 已 经 分 状 不 出 谁 是 猪 
谁 是 人 了 ， 
乔治 。 奥 友和 尔 ,， 《动物 庄园 》 


好 这 ， 有 个 程序 员 请 教 我 一 个 很 常见 的 问题 ， 如何 阻止 表 中 出 现 重 复 项 。 一 开始 ， 我 认为 
可 能 古 他 的 表 中 缺少 一 个 主键 ,但 后 来 发 现 并 不 是 这 么 回 事 。 


他 的 内 容 管理 数据 库 中 存储 了 在 一 个 网 站 上 所 发 表 的 文 草 。 他 使 用 一 个 交叉 表 来 存储 文章 和 
标签 这 两 张 表 之 间 的 多 对 多 的 关系 。 
ID-Required/intro/articletags.sql 


CREATE TABLE ArticleTags 人 
1d SERIAL PRIMARY KEY ， 
article 1d BIGINT UNSIGNED NOT NULL, 
tag_id BIGINT UNSICNED NOT NULL ， 
FOREIGN KEY (article 1d) REFERENCES Articles (id), 
FOREIGN KEY (tag_1d) REFERENCES Tags (1d) 
| 
在 他 尝试 通过 给 定 的 标签 来 查询 文章 数量 的 时 候 ， 返 回 了 错误 的 结果 。 他 知道 “economy” 
标签 只 有 5 篇 文章 ， 但 是 查询 结果 告诉 他 有 7 篇 。 
ID-Required/intro/articletags.sql 


SELECT tag_id, COUNT(*) AS articles per_tag FROM ArticleTags WHERE tag_1d = 327; 
使 用 327 这 个 tag_id 去 查询 时 ， 他 看 到 这 个 标签 和 同一 篇 文革 关联 了 三 次 ， 三 条 记 了 录 显 示 
了 同样 的 关系 ， 尽 管 三 条 记录 显示 的 关系 id 不同。 


1d tag_id article_id 
22 327 1234 
23 327 1234 
24 327 1234 
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4.1 目标 : 建立 主键 规范 如 35 








这 张 表 是 有 主键 的 , 但 是 主键 并 疫 有 办 法 阻止 像 上 表 中 那样 的 重复 。 有 一 种 解决 方案 征 对 另 
外 两 列 创建 一 个 UNIQUE 约束 ， 但 同时 就 会 使 得 id 这 一 列 显 得 非 第 多 余 : 为 什么 还 需要 它 呢 ? 


4.1 目标 : 建立 主键 规范 


这 章 的 目标 就 是 要 确认 那些 使 用 了 主键 ， 却 混淆 了 主键 的 本 质 而 造成 的 一 种 反 模 式 .。 


每 个 了 解数 据 库 设计 的 人 都 知道 ， 主 键 对 于 一 张 表 来 说 是 一 个 很 重要 ， 甚 至 必需 的 部 分 。 这 
确实 契 事 实 ,主键 症 好 的 数据 库 设 计 的 一 部 分 。 主 键 征 数据 库 确 保 数 据 行 在 整 张 表 中 唯一 性 的 保 
障 ， 它 古 定 位 到 一 条 记录 并 且 确 保 不 会 重复 存储 的 逻辑 机 制 。 主键 也 同时 可 以 被 外 键 引 用 来 建立 
表 与 表 之 间 的 关系 。 


难 氮 契 选 择 哪 一 列 作为 主键 。 大 多 数 表 中 的 每 个 属性 的 值 都 有 可 能 被 很 多 行使 用 。 例 如 一 个 
人 的 姓 和 名 就 一 定 会 在 表 中 重复 出 现 , 即使 电子 邮件 地 址 或 者 美国 社保 编 二 或 者 税 单 编 三 也 不 能 
保证 绝对 不 会 重复 。 

在 这 样 的 表 中 , 需要 引入 一 个 对 于 表 的 域 模型 无 意义 的 新 列 来 存储 一 个 伪 值 。 这 一 列 被 用 作 
这 张 表 的 主键 ， 从 而 通过 它 来 确定 表 中 的 一 条 记录 ， 即 便 其 他 的 列 允许 出 现 适 当 的 重复 项 。 这 种 
类 型 的 主键 列 我 们 通 第 称 其 为 伪 主 键 或 者 代理 键 。 

大 多 数 的 数据 库 提 供 一 种 和 当前 处 理事 务 无 关 的 底层 方案 , 来 确保 每 次 都 能 生成 全 局 唯一 的 
一 个 整数 作为 伪 主 键 ， 即 使 客户 端 此 时 正 发 起 并 发 操作 。 








真 的 需要 一 个 主键 吗 ? 

我 曾经 听 一 些 开 发 人 员 声 称 他 们 的 数据 库 表 不 需要 主键 。 

有 时 候 这 些 程序 员 想 要 避免 想象 中 的 维护 唯一 索引 的 开销 , 或 者 他 们 的 表 中 并 没有 实现 
这 一 目的 的 列 。 

当 你 需要 做 下 面 这 些 事情 的 时 候 ， 主键 约束 是 很 重要 的 : 

口 确保 一 张 表 中 的 数据 不 会 出 现 重 复 行 ; 

口 在 查询 中 引用 单独 的 一 行 记录 ; 

口 支持 外 键 。 

如 果 你 不 使 用 主键 约束 ， 就 只 有 一 个 选择 : 检查 是 否 有 重复 行 。 

SELECT bug_id FROM Bugs GROUP BY bug_ ;id HAVING COUNT(*x) > 1; 

多 久 需 要 执行 一 次 这 样 的 检查 ? 当 你 找到 了 一 条 重复 记录 时 ， 又 要 如 何 处 理 ? 

一 张 没 有 主键 的 表 就 好 像 你 的 MP3 播放 列表 里 没有 歌 名 一 样 。 你 依然 可 以 听 歌 ,但 无 
法 找到 想 听 的 那 首 歌 ， 也 没 办 法 确保 播放 列表 中 没有 重复 的 歌曲 。 
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伪 主 键 直到 SQL:2003 才 成 为 一 个 标准 , 因而 每 个 数据 库 都 使 用 目 己 特有 的 SQL 扩展 来 实现 
伪 主 键 ， 甚 至 不 同 数据 库 中 对 于 伪 主 键 都 有 不 同 的 名 称 〈 不 同 的 表述 ) ， 如 下 表 。 


特 性 文 持 的 数据 库 
AUTO_INCREMENT MySQL 
GENERATOR Firebird, InterBase 
IDENTITY DB2, Derby, Microsoft SQL Server, Sybase 
ROWID SQLite 
SEQUENCE DB2, Firebird, Informix, Ingres, Oracle, PostgreSQL 
SERIAL MySQL, PostgreSQL 





伪 主 键 是 非常 有 用 的 数据 库 特 性 ， 但 并 不 是 声明 主键 的 唯一 解决 方案 。 
4.2 反 模 式 : 以 不 变 应 万 变 
很 多 的 书 、 文 章 以 及 程序 框架 都 会 告诉 你 ， 每 个 数据 库 的 表 都 需要 一 个 主键 ， 且 具有 如 下 三 


个 特性 : 

D 主键 的 列 名 叫做 id， 

D 数据 类 型 是 32 位 或 者 64 位 整 型 ; 

D 主键 的 值 是 上 自动 生成 来 确保 唯一 的 。 

在 每 张 表 中 都 存在 一 个 叫做 id 的 列 是 如 此 地 平 第 , 其 至 id 已 经 成 为 了 主键 的 同义词 。 很 多 
程序 员 在 一 开始 学 习 SQL 时 就 被 灌输 了 错误 的 概念 ， 认 为 主键 就 是 像 如 下 的 程序 那样 定义 的 一 
列 。 


ID-Required/anti/id-ubiquitous.sql 








CREATE TABLE Bugs ( 
1d SERIAL PRIMARY KEY ， 
description VARCHAR(1000), 
7 
给 每 张 表 都 增加 一 列 id， 使 其 使 用 显得 大 过 随意 。 


4.2.1 元 余 键 值 


你 可 能 会 发 现在 一 张 表 中 定义 了 id 这 一 列 作为 主键 ， 仅 仅 因 为 这 么 做 符合 传统 ， 然 而 可 能 
又 同 时 存在 男 一 列 从 逻辑 上 来 说 更 为 目 然 的 主键 , 这 一 列 其 至 也 具有 UNIQUE 约束 。 比 如 , 在 Bugs 
这 张 表 中 ， 程 序 会 使 用 这 个 Bug 所 属 项 目的 助 记 符 或 者 其 他 的 标识 信息 来 标记 一 个 Bug。 
ID-Required/anti/id-redundant.sql 


CREATE TABLE Bugs ( 
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1d SERIAL PRIMARY KEY ， 
bug_id VARCHAR(10) UNIQUE ， 
description VARCHAR(1000), 

2 


INSERT INTO Bugs (bug_1id, description, ...) 
VALUES ('VIS-078"', 'crashes on save', ...); 


bug_id 这 一 列 和 id 有 着 相似 的 功能 ， 都 是 为 了 唯一 地 标识 一 条 记录 。 
4.2.2 ”人 允许 重复 项 


一 个 组 合 键 包含 了 多 个 不 同 的 列 。 组 合 键 的 典型 场景 是 在 像 BugsProducts 这 样 的 交叉 表 中 。 
主键 需要 确保 一 个 给 定 的 bug_id 和 product_id 的 组 合 在 整 张 表 中 只 能 出 现 一 次 ， 虽 然 同一 个 


值 可 能 在 很 多 不 同 的 配对 中 出 现 。 


然而 ， 当 你 使 用 id 这 一 列 作为 主键 ,约束 束 不 再 是 bug_id 和 product_id 的 组 合 必须 


Ws 
ID-Required/anti/superfluous.sqgl 


CREATE TABLE BugsProducts ( 

1d SERIAL PRIMARY KEY ， 

bug_1d BIGINT UNSIGNED NOT NULL ， 

product_1d BIGINT UNSIGNED NOT NULL ， 

FOREIGN KEY (bug id) REFERENCES Bugs(Cbug_jid)， 

FOREIGCN KEY (product_1d) REFERENCES Products(product_1d) 
2 


INSERT INTO BugsProducts (bug_ 1id, product_1d) 
VALUES (1234，14)，(1234，1)，(1234，1); -- 重复 项 也 是 可 以 输入 的 


当 你 用 这 张 交 又 表 去 查询 Bugs 和 Products 的 关系 时 ， 重 复 项 会 引起 意料 之 外 的 结果 。 要 


确保 没有 重复 项 ， 你 可 以 在 id 之 外 ， 额 外 声明 另外 两 列 需 要 一 个 UNIQUE 约束 。 
ID-Required/anti/superfluous.sqgl 


CREATE TABLE BugsProducts ( 

1d SERIAL PRIMARY KEY, 

bug_id BIGINT UNSIGCNED NOT NULL ， 

product_id BIGINT UNSIGNED NOT NULL ， 

UNIQUE KEY (bug_id, product_1d), 

FOREIGN KEY (bug_ id) REFERENCES BugsCbug id) ， 

FOREIGCN KEY (product_ 1d) REFERENCES Products(product_1d) 
2 


但 是 ， 当 你 在 bug_id 和 product_id 这 两 列 上 应 用 了 唯一 性 约束 ，id 这 一 列 就 会 变 成 多 


的 。 
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4.2.3 意义 不 明 的 关键 字 


单词 “code” 有 很 多 意思 ， 其 中 之 一 便 是 在 交流 中 用 于 简化 或 者 加 密 消息 的 。“code” 还 有 
一 个 意思 就 是 写 代码 。 在 程序 设计 中 , 我 们 需要 做 的 是 尽量 使 得 逻辑 更 加 地 清晰 明了 , 而 不 是 “使 
其 复杂 到 难以 辨认 ”。 


id 这 个 词 征 如 此 地 普通 ， 宛 全 无 法 表达 更 次 层次 的 意思 ， 特 别 是 在 你 做 两 张 表 的 联结 碍 
询 ， 而 它们 都 有 一 个 叫做 id 的 主键 时 。 


ID-Required/anti/ambiguous.sql 


SELECT b.id, a.id 

FROM Bugs b 

JOIN Accounts a ON (b.assigned to = a.1d) 

WHERE b.status = 'OPEN'; 

如 果 你 的 程序 用 的 是 列 名 而 不 是 列 在 表 中 的 序号 来 编码 ， 该 如 何 区 分 缺陷 id 和 账号 id? 在 
像 PHP 一 样 的 动态 语言 中 ， 这 个 问题 显得 更 加 突出 。 比 如 你 需要 获得 一 个 关联 数组 的 查询 结 末 ， 
除非 在 查询 时 指定 了 列 别名 ， 人 否则 基 中 的 一 个 1d 列 会 覆盖 抒 另 一 列 id 的 值 。 


列 名 id 并 不 会 使 查询 变 得 更 加 请 晰 。 但 如 果 列 名 叫做 bug_id 或 者 account_id， 事 情 
就 会 变 得 更 加 简单 。 我 们 使 用 主键 来 唯一 地 定位 一 条 记录 ， 因 此 主键 的 列 名 就 应 该 更 加 便于 
理解 。 


4.2.4 ”使 用 USING 关 键 字 


可 能 你 很 熟悉 联结 查询 胸 语法 ， 使 用 SQL 关键 字 JOIN 和 ON 来 处 理 两 张 表 的 匹配 数据 行 ， 
就 像 下 向 的 例子 : 


ID-Required/anti/join.sql 








SELECT * FROM Bugs AS b JOIN BugsProducts AS bp ON (b.bug_1d = bp.bug_1d); 


SQL 同时 也 支持 男 一 种 更 加 人 简洁 的 表达 式 来 表示 两 张 表 的 联结 。 如 来 两 张 表 都 有 同样 的 列 
就 可 以 用 如 下 的 表达 式 来 重 写 上 徊 的 需求 : 


ID-Required/anti/join.sql 


Ey 


SELECT * FROM Bugs JOIN BugsProducts USING (bug_1d); 


然而 ， 如 果 所 有 的 表 都 要 求 定 义 一 个 叫做 id 的 伪 主 键 ， 那 么 作为 外 键 的 列 将 永远 不 能 使 用 
和 51 用 的 列 相同 的 列 名 。 同 时 ， 每 次 查询 都 必须 使 用 嘿 叶 的 ON 表达 式 : 
ID-Required/anti/join.sql 


SELECT * FROM Bugs AS b JOIN BugsProducts AS bp ON (b.1d = bp.bug_1d); 
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4.2.5 ”使 用 组 合 键 之 难 


一 些 开 发 人 员 拒 绝 使 用 组 合 键 ， 因 为 他 们 觉得 它 太 难以 使 用 了 。 如 末 要 比较 两 个 键 值 ， 必 须 
比较 其 包含 的 所 有 列 的 值 ， 一 个 引用 组 合 键 的 外 键 ， 其 本 身 也 必须 是 一 个 组 合 外 键 。 此 外 ， 使 用 
组 合 键 需要 打 更 多 的 字 。 


程序 员 拒 绝 在 设计 中 使 用 组 合 键 , 就 好 像 数 学 家 拒绝 使 用 二 维 或 者 三 维 坐 标 系 , 只 使 用 一 维 数 
轴 来 计算 所 有 现实 事物 一 样 。 虽 然 那样 的 确 会 使 得 几何 学 变 得 简单 ， 却 无 法 描绘 我 们 的 真实 世界 。 


特定 范围 序列 

有 些 程 序 员 通过 给 当前 使 用 的 最 大 值 加 1 来 获取 一 条 新 记录 的 ID: 

SELECT MAX(bug_1d) + 1 AS next_ bug_id FROM Bugs; 

当 客 户 问 发 起 并 发 请 求 来 获取 新 记录 的 id 时 ， 这 样 的 做 法 并 不 可 靠 。 同 样 的 值 可 能 被 
多 个 客户 痹 同时 获得 ， 这 样 的 情况 称 为 “竞争 。 

要 避免 由 多 客 尸 疙 引起 的 竞争 问题 ， 就 需要 在 计算 并 重新 设 定 最 大 值 时 阻止 并 发 的 插 
入 ,你 不 得 不 锁 住 整 张 表 一 一 单纯 锁 住 行 并 不 够 。 锁 住 整 张 表 的 访问 会 造成 系统 性 能 的 瓶颈 ， 
因为 它 使 得 所 有 的 并 发 芒 问 必须 排队 。 

序列 通过 将 运算 和 事务 在 地 辑 上 分 离 来 解决 并 发 问题 。 序列 确保 即使 在 多 并 发 下 , 每 次 
调用 都 会 返回 不 同 的 值 ， 因 而 无 论 是 否 需要 将 由 序列 返回 的 值 插入 新 行 , 序列 都 不 会 再 次 生 
成 同样 的 值 。 由 于 序列 的 这 种 特性 ， 多 个 客 尸 疙 可 以 同时 发 起 请 求 ， 并且 确 信 它 们 获取 到 的 
值 在 每 个 客户 端 中 是 唯一 的 。 

大 多 数 数据 库 都 支持 一 些 内 置 函 数 来 获取 一 个 序列 生成 的 最 后 一 个 值 。 比 如 ，MySQL 
中 的 这 个 函数 叫做 LAST_INSERT_ID(); Microsoft SQL Server 使 用 叫做 SCOPE_IDENTITYO 
的 函数 ，Oracle 中 称 为 SequenceName.CURRVAL()， 

这 些 函 数 都 返回 在 自己 的 会 话 周期 内 生成 的 值 ,即使 有 其 他 的 客户 痛 同 时 在 调用 也 是 如 
此 ， 因 而 不 会 产生 竞争 。 


4.3 如何 识 别 反 模式 

这 章 的 反 模式 的 特征 很 容易 辨认 : 使 用 了 过 于 普通 的 id 作为 表 的 主键 的 列 名 。 实 际 上 ， 绝 
无 理由 不 使 用 另 一 个 更 加 有 意义 的 名 称 。 

如 果 你 遇 到 了 下 面 的 儿 个 问题 ， 可 能 是 使 用 了 这 个 反 模 式 的 征兆 。 


D “我 觉得 这 张 表 不 需要 主键 。 
会 这 么 说 的 开发 人 员 一 定 征 误解 了 “主键 和 “ 伪 主 键 ” 的 舍 义 。 每 张 表 都 必须 有 一 个 
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主键 来 确保 不 出 现 重复 项 并 定位 每 一 行 。 他 们 可 能 想 要 一 个 更 目 然 的 列 名 来 做 主键 或 者 
需要 一 个 组 合 键 。 

D “我 怎么 能 在 多 对 多 的 表 中 存储 重复 的 项 ? 
在 一 个 多 对 多 关系 的 交叉 表 中 需要 声明 一 个 主键 约束 ， 或 者 至 少 需要 有 一 个 针对 那些 被 
引用 为 外 键 的 列 的 唯一 约束 。 

D“ 我 学 过 数据 库 设计 理论 ， 里 面 说 我 应 该 把 数据 移 到 一 张 查 询 表 中 ， 然 后 通过 ID 碍 找 。 
但 征 我 不 想 这 么 做 ， 因 为 每 次 我 想 要 获得 真实 的 数据 ， 都 不 得 不 做 一 次 联结 查询 。 
这 在 数据 库 设计 中 是 一 个 稍 见 的 误区 ， 称 为 “正规 化 ” (normalization) ， 然 而 实际 中 对 于 
伪 主 键 并 没有 什么 需要 做 的 。 更 详细 的 信息 参考 附录 A。 


4.4 ”合理 使 用 反 模 式 


一 些 面向 对 象 的 框架 假设 “惯例 优 于 配置 ”从 而 简化 其 设计 。 它 们 期 望 每 张 表 都 使 用 同样 的 
方法 来 定义 它 的 主键 : 使 用 id 作为 列 名 ， 并 且 使 用 类 型 为 整 型 的 伪 主 键 。 如 末 你 使 用 了 这 样 的 
一 个 框架 ， 就 可 能 不 得 不 遵守 这 样 的 约定 ， 才 能 够 进一步 使 用 这 个 框 染 所 提供 的 其 他 特性 。 

使 用 伪 主 键 , 或 者 通过 目 动 增长 的 整 型 的 机 制 本 身 没 有 什么 错误 , 但 不 是 每 张 表 都 需要 一 个 
伪 主 键 ， 更 没有 必要 将 每 个 伪 主 键 部 定义 成 id。 

对 于 太 长 而 不 方便 实现 的 目 然 键 来 说 ， 伪 主键 是 很 好 的 代 禁 品 。 比 如 在 一 个 记录 文件 系 
统 中 所 有 文件 属性 的 表 中 ， 文 件 路 径 是 一 个 很 好 的 自然 键 ， 但 对 一 个 字符 串 列 做 索引 的 开销 











4.5 解决 方案 : 裁 檀 设计 


主键 是 约束 而 非 数 据 类 型 。 你 可 以 定义 任意 列 或 任意 多 的 列 为 主键 , 只 要 其 数据 类 型 文 持 索 
5|。 同 时 ,还 可 以 将 一 个 列 的 数据 类 型 定义 为 目 增 长 的 整 型 而 不 设 定 其 为 主键 。 这 两 者 是 完全 无 
天 的 。 


别 被 既 有 的 惯例 限制 住 设计 。 
4.5.1 直截了当 地 描述 设计 

为 主键 选择 更 有 意义 的 名 称 : 一 个 能 够 反应 这 个 主键 所 代表 的 实体 的 类 型 的 名 字 。 比 如 ， 
Bugs 这 张 表 的 主键 应 该 叫做 bug_id。 


外 键 应 该 尽 可 能 地 和 所 引用 的 列 使 用 相同 的 名 称 ,， 这 通常 间 味 着 : 一 个 主键 的 名 称 应 该 在 整 
个 数据 库 的 设计 中 唯一 ; 任意 两 张 表 都 不 应 该 使 用 相同 的 名 称 来 定义 主键 ,除非 其 中 之 一 引用 了 
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另 一 个 作为 外 键 。 然 而 ， 几 事 都 有 例外 ， 有 时 外 键 的 名 称 需要 和 其 所 引用 的 主键 区 分 开 ， 从 而 使 
得 它们 之 间 的 引用 关系 表现 得 更 加 清晰 。 


ID-Required/soln/foreignkey-name.sql 





CREATE TABLE Bugs ( 


reported by BIGINT UNSIGQNED NOT NULL ， 
FOREIGN KEY (reported by) REFERENCES Accounts(account_1d) 
ja 


信息 行业 中 存在 一 个 叫做 ISOAEC 11179 的 现行 标准 , 用 来 描述 元 数据 的 命名 惯例 。 换言之 ， 
这 份 标准 就 是 用 来 指导 你 如 何 更 合理 地 给 数据 库 表 中 的 每 一 列 命名 。 束 像 大 多 数 的 ISO 标准 一 
样 ， 这 份 标准 文档 也 几乎 是 一 份 天 书 ， 但 Joe Celko 在 他 的 SQL Programming Stytle[Cel05] 一 书 中 
实践 了 这 份 标准 。 


4.5.2 打破 传统 


面 问 对 象 的 框架 希望 你 使 用 id 这 个 伪 主 键 , 但 同时 也 允许 无 视 这 个 规则 转 而 使 用 别 的 名 字 。 
下 面 是 Ruby on Rails 的 一 个 例子 : 


ID-Redquired/soln/custom-primarykey.rb 





class Bug < Act1veRecord::Base 
set_prlimary key "bug_id" 
end 


一 些 开 发 人 员 认 为 仅仅 在 处 理 那 些 遗 贸 数 据 库 而 无 法 使 用 目 己 所 喜欢 的 规范 时 , 才 需 要 为 主 
键 列 定义 不 同 的 名 称 , 而 事实 上 , 即使 对 于 新 项 目 , 为 每 一 列 指定 一 个 有 意义 的 名 称 也 十 分 重要 。 


4.5.3 拥抱 目 然 键 和 组 合 键 

如 末 你 的 表 中 包含 一 列 能 确保 唯一 、 非 空 以 及 能 够 用 来 定位 一 条 记录 ， 就 别 仅仅 因为 传统 而 
觉得 有 必要 再 加 上 一 个 伪 主 键 。 

实践 证 明 , 一 张 表 中 的 每 一 列 都 在 最 初 的 设计 之 后 遭遇 改变 或 者 一 开始 就 是 不 唯一 的 ,这 是 
再 平常 不 过 的 事情 。 数 据 库 的 设计 趋 癌 于 在 整个 项 目的 生命 周期 中 不 断 地 调整 和 优化 , 并且 决策 
者 也 可 能 一 点 也 不 在 乎 自然 键 的 “神圣 不 可 侵犯 -。 有 时 便 ， 一 个 列 在 最 开始 时 像 是 个 很 好 的 目 
然 键 ,但 随后 义 允 许 合 法 的 重复 项 。 此 时 ， 伪 主键 便 成 了 唯一 的 选择 。 

在 合适 的 时 候 也 可 以 使 用 组 合 键 ， 比 如 一 条 记录 可 以 通过 多 列 的 组 合 完 全 定位 ， 就 像 
BugsProducts 表 ， 那 就 通过 那些 列 创建 一 个 组 合 键 吧 。 








QD http:/metadata-standards.org/11179/。 


到 灵 社 区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


42 > 第 4 章 需要 ID 


ID-Required/soIln/compound.sql 


CREATE TABLE BugsProducts ( 

bug_id BIGINT UNSIGNED NOT NULL ， 

product_1id BIGINT UNSIGNED NOT NULL ， 

PRIMARY KEY (bug_id, product_1d), 

FOREIGN KEY (bug_ id) REFERENCES BugsCbug id) ， 

FOREIGCN KEY (product_ 1d) REFERENCES Products(product_1d) 
汪 


INSERT INTO BugsProducts (bug_1d, product_1d) 
VALUES (1234, 1), (1234, 2), (1234, 3); 


INSERT INTO BugsProducts (bug_1d, product_1d) 
VALUES (1234，1); -- 错误 . 重复 项 


需要 注意 的 是 , 一 个 引用 了 组 合 键 的 外 键 同 样 需要 是 一 个 组 合 键 。 这 看 上 去 像 古 很 索 爽 地 对 
其 依赖 的 列 做 了 一 个 副本 , 但 这 么 做 也 有 好 处 ， 它 能 简化 原来 需要 一 个 联结 查询 才能 获得 的 一 条 
记录 的 相关 属性 。 


规范 仅仅 在 它 有 帮助 时 才 是 好 的 ，。 
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是 故 胜 兵 先 胜 而 后 求 战 ， 败 兵 先 战 而 后 求 胜 。 


孙子 


比尔 ， 我 们 实验 室 中 的 同一 人 台 服 务 右 好 像 在 同一 天 被 两 个 经 理 预定 了 一 一 这 怎么 可 能 ? 
测试 实验 室 的 经 理 冲 进 了 我 的 小 隔 间 说 道 :“ 你 能 查 一 下 是 怎么 回 事 ， 然 后 解决 一 下 这 个 问题 
吗 ? 他 们 都 对 着 我 大 吼 大 叫 ， 说 他 们 需要 这 台 设 备 ， 并 且说 我 耽误 了 他 们 的 项 目 进度 。 

几 年 前 我 使 用 MySQL 设计 了 一 个 设备 跟踪 系统 。MyYSQL 默认 的 存储 ?引擎 是 MyISAM， 一 
个 并 不 支持 外 键 约束 的 东西 。 数 据 库 的 设计 中 有 很 多 的 逻辑 关系 ， 但 无 法 你 证 31 用 完整 性 。 

当 程序 不 断 地 更 新 ， 并 且 使 用 了 新 的 方法 来 操作 数据 的 时 候 ， 我 们 制造 了 一 个 同 题 : 当 无 法 
保障 引用 完整 性 时 ,报表 中 出 现 了 不 一 致 的 情况 ， 各 部 分 的 计算 结 来 不 一 臻 ， 最 终 导 致 了 同时 预 
约 的 结 采 。 

项 目 经 理 让 我 写 一 个 监控 脚本 , 然后 让 它 在 后 台 持 续 地 执行 ,检查 是 否 有 不 一 致 的 情况 发 生 ， 
比如 数据 库 中 和 是否 存在 抓 立 的 记 录 ， 并 且 当 有 此 类 错误 发 生 时 ， 通 过 电子 邮件 报警 通知 我 们 。 

数据 库 中 每 个 表 与 表 的 关系 都 需要 使 用 这 些 脚 本 来 进行 检查 。 随 着 数据 量 和 表 的 数目 不 断 增 
长 ， 监 控 脚 本 的 查询 量 和 相应 的 查询 时 间 也 随 之 增长 ,报警 的 邮件 也 变 得 很 长 。 这 样 的 场景 ， 你 
和 契合 似曾相识 ? 

监控 脚本 工作 得 很 好 ， 但 这 显然 是 个 很 浪费 的 重复 造 轮子 工程。 我 所 需要 的 是 能 找到 一 个 
方法 ， 使 得 程序 在 用 户 提交 了 错误 数据 时 能 及 时 地 发 现 。 外 键 约束 能 做 到 吗 ? 


5.1 目标 : 简化 数据 库 染 构 
关系 数据 库 的 设计 基本 上 可 以 说 就 是 关于 每 张 独立 表 之 间 的 关系 的 设计 。 引用 完整 性 是 合理 


























Q@ reinvent the wheel: 表示 重复 发 明 或 开发 已 经 存在 的 东西 。 一 一 编者 注 
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的 数据 库 设 计 和 操作 的 非 第 重要 的 一 部 分 。 当 一 列 或 者 多 列 声 明了 外 键 约束 后 ,， 这些 列 中 的 数据 
必须 在 其 父 表 ( 即 所 引用 的 表 ) 的 主键 列 或 者 唯一 字段 的 列 中 存在 。 原 理 貌 似 很 简单 。 

然而 , 一些 开发 人 员 不 推荐 使 用 5 用 完整 性 约束 。 你 可 能 昕 说 过 这 么 几 点 不 使 用 外 键 的 原因 。 

D 数据 更 新 有 可 能 和 约束 冲突 。 

口 当前 的 数据 库 设 计 如 此 灵活 ， 以 致 于 不 支持 引用 完整 性 约束 。 

D 数据 库 为 外 键 建立 的 索引 会 影响 性 能 。 

D 当前 使 用 的 数据 库 不 支持 外 键 。 

D 定义 外 键 的 语法 并 不 简单， 还 需要 查阅 。 


5.2 ” 反 模 式 : 无 视 约束 


即使 第 一 感觉 告诉 你 , 省 略 外 键 约束 能 使 得 数据 库 设计 更 加 简单 、 灵 活 , 或 者 执行 更 加 高 效 ， 
你 还 是 不 得 不 在 其 他 方面 付出 相应 的 代价 一 一 必须 增加 额外 的 代码 来 手动 维护 引用 完整 性 。 


还 
5.2.1 假设 无 瑕 代码 


很 多 人 对 引用 完整 性 的 解决 方案 是 通过 编写 特定 的 程序 代码 来 确 你 数据 间 的 关系 的 。 每 次 插 
入 新 记录 时 ,需要 确保 外 键 列 所 5 用 的 值 在 其 对 应 的 表 中 存在 ; 每 次 删除 记录 时 ,需要 确保 所 有 
相关 的 表 都 要 同时 合理 地 更 新 。 用 时 下 流行 的 话 来 说 就 是 : 千 万 别 犯 错 (make no mistakes)。 

要 避免 在 没有 外 键 约束 的 情况 下 产生 5| 用 的 不 完整 状态 , 需要 在 任何 改变 生效 前 执行 额外 的 
SELECT 查询 ， 以 此 来 确保 这 些 改变 不 会 导致 51 用 错误 。 比 如 ， 在 插入 一 条 新 记录 之 前 ， 需 要 检 
答对 应 的 锌 ?| 用 记 隶 征 否 存在 : 


Keyless-Entry/anti/insert.sql 








SELECT account 1d FROM Accounts WHERE account 1d = 1; 
然后 才 可 以 添加 一 个 5 用 了 这 个 账号 的 bug 记录 : 
Keyless-Entry/anti/insert.sql 
INSERT INTO Bugs (reported by) VALUES (1); 
要 删除 一 条 记录 ， 需 要 先 确认 没有 别 的 记录 351 用 了 该 条 记录 : 
Keyless-Entry/anti/delete.sql 
SELECT bug_ 1d FROM Bugs WHERE reported by = 1; 
随后 才能 删除 这 个 账号 : 
Keyless-Entry/anti/delete.sql 


DELETE FROM Accounts WHERE account 1d = 1; 
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如 条 这 个 account_id 为 1 的 用 户 ， 恰 巧 在 删除 操作 的 查询 和 删除 语句 的 执行 间 际 插入 了 一 
条 新 的 缺陷 记录 ， 该 怎么 办 ? 这 看 上 去 不 太 可 能 发 生 , 但 是 戈 登 。 玉 顿 (DOS 4 的 架构 师 ) 曾经 
说 过 一 句 很 著名 的 话 :“ 不 怕 一 万 ， 就 怕 万 一 。 这 样 的 确 会 造成 一 个 破碎 的 引用 关系 一 一 一 个 
bug 由 一 个 不 存在 的 账号 提交 。 

唯一 的 做 法 是 在 检查 数据 时 显 式 地 锁 住 Bugs 这 张 表 ， 然 后 在 删除 账号 完成 之 后 再 解锁 。 任 
何 需 要 这 样 加 锁 的 架构 ， 在 高 并 发 和 大 数据 量 查 询 时 的 表现 都 非常 糟糕。 
5.2.2 ”检查 错误 


本 革 所 摘 述 的 不 正确 的 解决 方案 使 用 的 古 程 序 员 写 的 外 部 脚本 来 检查 错误 的 数据 。 


举例 来 说 ,在 我 们 的 缺陷 数据 库 中 ，Bugs .status 一 列 ?| 用 了 BugStatus 这 张 表 。 为 了 找到 
状态 值 有 异常 的 缺陷 记录 ， 你 可 能 会 使 用 如 下 的 查询 语句 : 


Keyless-Enitry/anti/find-orphans.sql 








SELECT b.bug id, b.status 

FROM Bugs b LEFT OUTER JOIN BugStatus s 
ON (b.status = s.status) 

WHERE s.status IS NULL ; 


可 以 想象 一 下 ， 你 需要 为 数据 库 中 所 有 的 引用 关系 写 类 似 的 脚本 。 

如 末 你 发 现 自 己 正 陷于 使 用 这 样 的 方法 检查 数据 库 中 错误 的 引用 关系 的 窘境 时 ,下 一 个 问题 
便 是 , 多 久 需 要 执行 一 次 这 个 脚本 ? 每 天 手动 执行 成 百 上 千 或 者 更 多 次 这 样 的 查询 脚本 , 是 一 件 
非常 乏味 的 事情 。 

当 你 真 的 发 现 了 一 个 错误 的 引用 关系 时 ， 该 怎么 办 ? 你 能 修复 它 吗 ? 有 时 候 也 许 行 。 比 如 ， 
可 以 将 一 个 无 意义 的 值 改 成 默认 值 。 

Keyless-Entry/anti/set-default.sql 


UPDATE Bugs SET status = DEFAULT WHERE status = 'BANANA'; 
不 可 避免 , 还 有 很 多 情况 是 无 法 通过 人 简单 设 为 默认 值 就 能 处 理 的 。 比 如, Bugs. reported_by 


这 一 列 应 该 要 引用 一 个 提交 这 个 缺陷 的 账号 ， 而 当 这 个 值 是 无 效 值 时 ， 应 该 使 用 哪个 账号 来 代 
链 ? 


5.2.3 “ 那 不 是 我 的 错 ! ” 


所 有 与 数据 库 相 关 的 代码 都 是 完美 的 一 一 这 基本 上 是 不 可 能 的 。 你 可 以 简单 地 使 用 几 个 国 数 
来 处 理 相似 的 数据 更 新 , 但 是 如 末 需 要 修改 代码 的 时 修 ， 要 怎么 保证 应 用 程序 中 的 每 一 个 相关 所 








QD SQL 文 持 使 用 DEFAULT 关键 字 。 
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邦 一 起 修改 了 呢 ? 

而 且 可 能 有 的 用 户 直 接 操作 了 数据 库 ， 用 了 SQL 查询 工具 或 者 使 用 了 私有 脚本 。 通 过 使 用 
临时 编写 的 SQL 语句 ， 很 容易 产生 错误 的 引用 。 你 应 该 假设 这 些 事情 会 在 你 的 应 用 程序 生命 周 
期 的 茶 一 个 时 刻 会 发 生 。 

你 需要 数据 库 中 的 数据 保持 连 员 ， 这 意味 着 ， 需 要 仰 仗 数据 库 中 的 引用 关系 始终 是 正 溃 的 ， 
不 出 错 的 。 但 你 不 能 确定 所 有 的 应 用 程序 或 者 脚本 在 访问 数据 库 时 所 作 的 事情 都 征 正 确 合理 的 。 








5.2.4 进退维谷 


很 多 开发 人 员 避 免 使 用 外 键 约束 的 理由 , 是 因为 这 些 约束 会 使 得 更 新 多 张 表 中 相关 联 的 列 变 
得 比较 麻烦 。 比 如 ， 如 果 你 想 要 删除 一 条 被 其 他 记录 所 依赖 的 记录 ,就 不 得 不 删除 所 有 的 子 记 录 
来 避免 违 反 外 键 约束 : 

Keyless-Entry/anti/delete-child.sql 


DELETE FROM BugStatus WHERE status = 'BOGUS'; -- ERROR! 

DELETE FROM Bugs WHERE status = 'BOGUS'; 

DELETE FROM BugStatus WHERE status = “BOCUS ; -- retry succeeds 

你 不 得 不 为 每 张 子 表 手 动 执行 多 条 语句 。 如 采 你 在 将 来 的 需求 变更 下 又 往 数据 库 中 添 加 了 一 
张 新 表 ， 就 不 得 不 修改 所 有 相关 的 代码 来 删除 这 张 新 表 中 的 数据 。 但 这 个 问题 是 可 以 解决 的 。 

而 没 解决 的 问题 是 ， 当 你 UPDATE 一 条 被 其 他 记录 依赖 的 记录 时 ， 在 役 有 更 新 父 记录 前 ， 你 
不 能 更 新 子 记 好， 而且 也 不 能 在 更 新 父 记 录 前 更 新 子 记录 。 你 需要 同步 执行 两 边 的 更 新 , 但 是 使 
用 两 个 独立 的 更 新 语句 是 不 现实 上 的 。 这 束 是 所 谓 的 进退 维 谷 。 


Keyless-Entry/anti/update-catch22.sql 

















UPDATE BugStatus SET status = "INVALID' WHERE status = “BOCUS ; -- ERRORI 


UPDATE Bugs SET status = 'INVALID' WHERE status = 'BOGUS'; -- ERROR! 
一 些 开发 人 员 发 现 这 样 的 情况 几乎 无 法 管理 ， 因 而 他 们 决定 干脆 不 使 用 外 键 。 但 是 ， 我 们 稍 
后 将 会 看 到 外 键 如 何 用 一 种 简单 而 高 效 的 方法 同时 更 新 和 删除 多 张 表 中 的 记录 。 


5.3 ”如 何 识 别 反 模式 


如 本 你 听 到 有 人 说 的 话 像 下 面 列 举 的 这 样 ， 他 们 可 能 正 使 用 了 本 草 所 拉 述 的 反 模式 。 


D “我 要 怎么 写 这 个 查询 语句 来 检查 一 个 值 是 否 没有 同时 在 两 张 表 中 存在 ? ” 
通常 这 样 的 需求 是 为 了 查找 那些 孤立 的 行 。 
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D 口 “ 有 设 有 一 种 简单 的 方法 来 判断 在 一 张 表 中 存在 的 数据 是 否 也 在 第 二 张 表 中 存在 ? 
这 么 做 是 用 来 确认 父 记录 切实 存在 。 外 键 会 目 动 完成 这 些 ， 并 且 外 键 会 使 用 父 表 的 索引 
尽 可 能 高 效 地 完成。 
口 “ 外 键 ? 有 人 告诉 我 别 用 它 ， 因 为 那 会 影 啊 数据 库 的 效率 。 
性 能 总 古 用 来 裁 辫 设 计 的 一 个 很 好 的 理由 ,但 总 古 会 9| 入 更 多 的 同 题 ， 其 至 包括 性 能 问 
题 本 刁 。 


5.4 合理 使 用 反 模 式 


有 时 你 被 迫使 用 不 支持 外 键 约束 的 数据 库 产品 (比如 MySQL 的 MyISAM 存储 引擎 , 或 者 比 
SQLite 3.6.19 早 的 版 本 )。 如 采 十 这 种 情况 ， 那 你 不 得 不 使 用 别 的 方法 来 弥补 ， 比 如 说 前 文 描述 
的 监控 脚本 。 


同样 也 存在 一 些 极度 灵活 的 数据 库 设 计 ， 外 键 无 法 用 来 表示 其 对 应 的 关系 。 如 有 你 不 能 使 用 
传统 的 引用 完整 性 约束 ， 很 有 可 能 你 正在 使 用 另 一 个 SQL 反 模 式 。 可 以 阅读 第 6 草 和 第 7 草 来 
多 取 更 多 的 信息 。 


5.5 解决 方案 : 声明 约束 


日 语 中 有 个 短语 poka-yoke， 意 思 征 “ 防 差错 技术 。 这 征 一 种 制造 工 志 ,通过 在 错误 发 生 时 
对 错误 加 以 阻止 、 纠 正 或 者 引起 注意 来 帮助 消除 产品 缺陷 。 这 项 工 忆 能 够 显著 地 提升 产品 质量 ， 
帮助 减少 纠 错 的 必要 ， 相 比 于 使 用 这 种 工 忆 的 开销 ， 其 所 獒 得 收益 更 高 。 

你 可 以 将 防 差错 技术 的 理论 应 用 到 你 的 数据 库 设 计 中 一 一 通过 使 用 外 键 来 确保 引用 完 
整 性 。 相 对 于 得 找 并 修正 完整 性 错误 ， 你 可 以 在 进入 数据 库 的 第 一 道 天 卞 上 束 阻 止 这 样 的 钳 
误 发 生 。 


E 








Keyless-Entry/solIn/foreign-keys.sql 


CREATE TABLE Bugs ( 


ee BIGINT UNSICNED NOT NULL ， 

status VARCHAR(20) NOT NULL DEFAULT ‘NEW', 

FOREIGN KEY (reported by) REFERENCES Accounts(account_1d), 

FOREIGN KEY (status) REFERENCES BugStatus(status) 

4 
那些 现存 的 代码 以 及 临时 的 查询 都 将 遵守 同样 的 约束 ， 因 而 ,不 会 给 任何 被 遗 筷 的 代码 斤 段 

或 者 其 他 的 访问 方式 绕 开 约束 的 方法 。 数据 库 本 身 就 会 拒绝 所 有 不 合理 的 改变 , 无 论 这 个 改变 是 

通过 什么 方式 造成 的 。 
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通过 使 用 外 键 ， 能 够 避免 编写 不 必要 的 代码 ， 同 时 还 能 确保 一 旦 修改 了 数据 库 中 的 内 容 ， 
所 有 的 代码 依旧 能 够 用 同样 的 方式 执行 。 这 廊 省 了 大 量 开 发 、 调 试 以 及 维护 时 间 。 软 件 行业 中 
每 千 行 代码 的 平均 缺陷 数 约 为 13~50 个 。 在 其 他 条 件 相 同 的 情况 下 ， 越 少 的 代码 ， 意 味 着 越 少 
的 缺陷 。 


5.5.1 支持 同步 修改 


外 键 有 男 一 个 在 应 用 程序 中 无 法 模拟 的 特性 ， 级 联 更 新 。 
Keyless-Entry/soIn/cascade.sql 


CREATE TABLE Bugs ( 


pay BIGINT UNSIGNED NOT NULL., 
status VARCHAR(20) NOT NULL DEFAULT ‘NEW", 
FOREIGCN KEY (reported by) REFERENCES Accounts(account_1d) 
ON UPDATE CASCADE 
ON DELETE RESTRICT, 
FOREIGN KEY (status) REFERENCES BugStatus(status) 
ON UPDATE CASCADE 
ON DELETE SET DEFAULT 

下 

这 个 解决 方案 允许 你 更 新 或 者 删除 父 记 了 好， 并 且 让 数据 库 来 处 理 那 些 引 用 了 父 记 录 的 子 记 
了 好。 更 新 父 表 BugStatus 和 Accounts 会 自动 地 应 用 到 Bugs 表 中 的 子 记录 。 这 束 不 会 造成 进退 
维 合 的 状况 了 。 

在 外 键 约 束 中 声明 ON UPDATE 和 ON DELETE 的 方式 允许 你 控制 级 连 操 作 的 结果 。 比 如 说 ， 在 
reported_by 这 个 外 键 上 声明 的 RESTRICT 意味 着 你 无 法 删除 一 个 在 Bugs 这 张 表 中 被 ?| 用 的 账 
号 。 这 个 约束 会 阻止 删除 操作 并 且 产 生 一 个 错误 。 而 无 论 什 么 情况 下 ， 你 删除 一 个 status 值 ， 
任何 引用 该 值 的 记录 都 将 被 设置 成 默认 值 。 


在 执行 更 新 和 删除 两 个 操作 中 的 任意 一 个 时 ,数据 库 都 会 日 动 修改 两 张 表 中 的 数据 。 外 键 的 
5| 用 状态 在 操作 之 前 和 之 后 都 将 保持 完好 。 

如 采 你 往 数 据 库 中 新 加 入 一 张 子 表 , 子 表 中 的 外 键 就 规定 了 级 联 操 作 的 行为 。 你 不 需要 修改 
任何 应 用 程序 的 代码 。 同 时 ， 无 论 多 少 张 子 表 引用 了 同一 张 父 表 ， 都 不 需要 改变 任何 东西 。 








5.5.2 ”系统 开销 过 度 ? 不 见得 


的 确 ， 外 键 约束 需 要 多 那么 一 点 额外 的 系统 开销 ， 但 相 比 于 其 他 的 一 些 选 择 ， 外 键 确实 更 高 
2 
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D 不 需要 在 更 新 或 删除 记录 前 执行 SELECT 进行 检查 。 
D 在 同步 修改 时 不 需要 再 锁 住 整 张 表 。 
D 不 再 需要 执行 定期 的 监控 脚本 来 修正 不 可 避免 的 抓 立 数据 。 


外 键 使 用 方便 ,提高 性 能 , 还 能 帮助 你 在 任何 简单 或 复杂 形式 的 数据 变更 下 始终 维持 引用 完 
整 性 。 





通过 使 用 约束 来 帮助 数据 库 防止 错误 . 
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买 体 - 属 性 - 值 


如 果 你 想 把 一 只 猫 肢解 了 来 研究 它 是 怎么 工作 的 ， 那 么 首先 你 要 得 到 一 只 不 工作 


的 猫 。 
道格拉斯 。 亚当 斯 


“我 要 怎么 按 日 期 来 统计 记录 条 数 ?” 对 于 数据 库 程 序 员 来 说 , 这 是 一 个 最 基本 的 任务 例子 。 
它 的 解决 方案 在 任何 SQL 入 门 介绍 中 都 会 出 现 ， 因 为 它 包 伟 了 
EAV/intro/count.sql 


SELECT date reported, COUNT(*) 
FROM Bugs 
GROUP BY date_reported ; 


然而 ， 这 个 人 简单 的 解决 方案 需要 两 个 假设 。 

D 所 有 的 值 都 存在 同一 列 中 ， 比 如 Bugs .data_reported。 

口 数据 类 型 是 可 以 比较 的 ， 因 而 GROUP BY 可 以 通过 比较 两 个 值 是 否 相 等 来 分 组 。 

假如 这 些 假设 不 能 请 足 呢 ? 如 末日 期 存储 在 date_reported 或 者 report_date, 或 者 其 他 任 
何 列 且 每 条 记录 的 列 名 都 不 相同 呢 ? 如 果 日 期 的 格式 各 式 各 样 , 而 数据 库 无 法 简单 地 比较 两 个 日 
期 又 该 如 何 呢 ? 

如 果 你 在 使 用 “实体 -属性 - 值 ” 反 模 式 ， 就 会 遇 到 前 面 说 的 以 及 其 他 的 一 些 问 题 。 


6.1 目标 : 支持 可 变 的 属性 

可 扩展 性 是 所 有 软件 项 目 设计 中 最 普遍 的 一 个 目标 。 我 们 都 想 设计 出 一 个 不 需要 过 多 修改 ， 
甚至 不 需要 修改 吏 能 适合 将 来 需求 变更 的 软件 。 

这 并 不 是 一 个 新 的 课题 ， 自 1970 年 E.F. Codd 在 他 的 4 Relational Model of Data for Large Shared 
Data Banks[Cod 70] 一 文中 第 一 次 介绍 了 关系 模型 的 概念 以 来 ， 相 似 的 关于 关系 数据 模型 不 灵活 
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性 的 争论 就 一 直 在 持续 。 


通 第 来 说 , 一 张 表 由 一 些 属性 列 组 成 , 表 中 的 每 一 条 记录 都 使 用 这 些 列 ， 因 为 每 条 记录 表示 
的 邦 古 相似 的 对 象 实例 。 不 同 的 属性 集合 表示 不 同 果 对 象 ， 因 而 就 应 该 用 不 同 的 表 来 区 分 。 


但 是 ,在 现代 面向 对 象 的 编程 模型 中 ,不 同 的 对 象 类 型 可 能 是 相连 的 。 比 如 ， 多 个 对 象 都 可 
能 是 从 同一 个 基 类 派生 而 来 ， 它们 既是 实际 子 类 的 实例 ， 也 同时 是 父 类 的 实例 。 我 们 可 能 想 仅 使 
用 一 张 表 来 存储 所 有 这 些 不 同类 型 的 对 象 , 这样 能 方便 进行 比较 和 计算 。 但 我 们 也 需要 将 不 同 的 
子 类 分 开 存 储 ， 因 为 每 个 子 类 都 有 一 些 特殊 的 属性 ， 和 其 他 的 子 类 其 至 父 类 都 不 能 共用 。 


我 们 继续 使 用 Bugs 数据 库 来 人 举例。 在 图 6-1 中 ，Bug 和 FeatureRequest 有 一 些 公共 属性 ， 
我 们 将 其 提炼 为 一 个 基 类 ， 称 为 Issue。 每 个 事件 都 和 一 个 报告 它 的 人 相关 ， 同 时 也 和 一 个 产品 
相关 ， 并 且 这 个 产品 有 个 优先 级 用 以 比较 。 然 而 ，Bug 有 一 些 独特 的 属性 : 产生 错误 的 产品 版 本 
号 和 错误 的 级 别 。 同 样 地 ，FeatureRequest 也 有 自己 的 特有 属性 ， 比 如 ， 假 设 一 个 产品 特性 是 
和 支持 这 一 特性 的 开发 赞助 商 相 关 的 。 





+ Date_reported 
+ Reporter 

+ Priority 

+ Status 





FeatureRequest 


+ Severity + Sponsor 
+ Version_affected 






6-1 Bug 类 型 的 类 图 


6.2 反 模 式 : 使 用 泛 型 属性 表 


对 于 某 些 程序 员 来 说 ， 当 他 们 需要 支持 可 变 属性 时 ， 第 一 反应 便 是 创建 另 一 张 表 ， 将 属性 当 
成 行 来 存储 。 图 6-2 中 ， 属 性 表 中 的 每 条 记录 都 包含 三 列 。 


口 实体 : 通常 来 说 这 就 古 一 个 指 辣 父 表 的 外 键 ， 父 表 有 的 每 条 记 杂 表示 一 个 实体 对 象 。 
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口 属性 : 在 传统 的 表 中 ， 属 性 即 每 一 列 的 名 字 ， 但 在 这 个 新 的 设计 中 ， 我 们 需要 根据 不 同 
的 记录 来 解析 其 标识 的 对 象 属性 。 
D 值 : 对 于 每 个 实体 的 每 一 个 不 同属 性 ， 都 有 一 个 对 应 的 值 。 
比如 ， 一 个 给 定 的 Bug 是 一 个 实体 对 家 ， 我 们 通过 它 的 主键 来 标识 它 ， 它 的 主键 值 
为 1234。 这 个 对 象 有 一 个 属性 status，Bug 1234 的 status 的 值 为 NEVW。 


(JA lssueAttributes 





6-2 EAYV 实体 关系 


这 样 的 设计 称 为 实体 -属性 - 值 ， 简称 EAV。 有 时 也 称 之 为 : 开放 架构 、 无 模式 或 者 名 - 值 对 。 
EAV/anti/create-eav-table.sql 


CREATE TABLE Issues (人 
TSsue 1d SERIAL _ PRIMARY KEY 
J 


INSERT INTO Issues (issue 1d) VALUES (1234); 


CREATE TABLE IssueAttributes ( 
issue_id BIGINT UNSIGNED NOT NULL, 
attr_name VARCHAR(100) NOT NULL ， 
attr value VARCHAR(100), 
PRIMARY KEY (issue 1d, attr _ name), 
FOREIGN KEY (issue 1d) REFERENCES JIssues(issue 1d) 


2 
INSERT INTO IssueAttributes (issue 1d, attr name, attr value) 
VALUES 
(1234, 'product', 人 
(1234, 'date reported', '2009-06-01 ')， 
(1234, 'status', 'NEW" ) ， 
(1234， 'description’', 'Saving does not Work )， 
(1234, 'reported _ bpy ， "Bi11'), 
(1234, 'version affected', '1.0°'), 
(1234, 'severity', 'Joss of functionality '), 
(1234, 'priority', ‘high'); 
通过 增加 一 张 额外 的 表 ， 可 以 获得 如 下 这 些 好 处 。 


DD 这 两 张 表 的 列 邦 很 少 。 
D 新 增 的 属性 不 会 对 现 有 的 表 结 构造 成 影响 ， 不 需要 新 增 列 。 
oD 避免 了 由 于 空 值 而 造成 的 表 内 容 混 乱 。 
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这 看 上 去 是 一 个 改 民 过 的 设计 ,然而 , 设计 上 的 简单 化 并 不 足以 弥补 其 造成 的 使 用 上 的 难度 。 
6.2.1 查询 属性 


假设 你 的 领导 想 要 每 天 获取 一 份 Bug 的 报表 ， 在 传统 的 表 结 构 设 计 中 ，Issues 表 中 仪 包含 
了 很 简单 的 属性 列 ， 比 如 date_reported, 要 根据 日 期 查询 Bug 记录 ， 只 需要 执行 一 句 很 简单 的 
语句 : 


EAV/anti/query-plain.sql 





SELECT 1ssue 1d, date reported FROM Issues ; 

要 使 用 EAV 设计 来 做 相同 的 事情 ， 就 需要 先 从 表 IssueAttributes 中 提取 出 属性 列 为 
date_reported 的 所 有 记录 。 碍 询 操作 更 加 吵 唆 ， 而 且 不 够 请 晰 : 

EAV/antiyquery-eav sql 


SELECT issue_ id，attr_value AS “date_reported 
FROM IssueAttributes 
WHERE attr_name = 'date reported'; 


6.2.2 ”支持 数据 完整 性 
使 用 了 EAV 的 设计 ， 需 要 放弃 很 多 传统 的 数据 库 设计 所 带 来 的 方便 之 处 。 
6.2.3 无 法 声明 强制 属性 


要 让 你 的 领导 能 够 顺利 地 生成 项 目 报表 ， 需 要 确保 date_reported 这 个 属性 有 值 。 在 传 
统 的 数据 库 设计 中 ， 可 以 很 简单 地 通过 在 声明 的 时 候 加 上 NOT NULL 的 限制 来 确保 该 列 的 值 不 





x 
[这 


在 EAV 的 设计 中 ， 每 个 属性 对 应 IssueAttributes 表 中 的 一 行 ， 而 不 是 一 列 。 你 可 能 需要 
一 个 约束 来 检查 对 于 每 个 issue_id 都 存在 这 么 一 行 ， 并 且 这 行 的 attr_name 列 的 值 是 
date_reported, 

然而 ，SQL 没有 任何 类 型 的 约束 支持 这 么 做 。 因 而 你 必须 通过 编写 外 部 程序 的 代码 确保 这 
点 。 如 果 找 到 一 个 没有 提交 日 期 的 Bug 记录 , 应 该 为 它 加 上 一 个 日 期 吗 ? 那 应 该 给 它 赋 什么 值 ? 
如 末 胡 乱 猿 测 一 个 值 或 者 使 用 默认 值 ， 对 于 你 老板 报表 的 精确 性 来 说 有 多 少 影 响 ? 


6.2.4 无 法 使 用 SQL 的 数据 类 型 


你 的 老板 告诉 你 他 的 报表 有 点 问题 ， 因 为 人 们 输入 的 日 期 格式 各 云 各 样 ， 甚 至 有 时 十 个 字 
符 是 而 根本 就 不 是 一 个 日 期 。 在 传统 的 数据 库 中 , 你 可 以 通过 将 一 列 的 类 型 声明 为 DATE 来 确保 
这 种 情况 不 会 发 生 。 
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EAV/anti/insert-plain.sql 


INSERT INTO Issues (date reported) VALUES ('banana'); -- ERRORI 


在 EAV 的 设计 中 ，IssueAttributes.attri_value 列 的 数据 类 型 就 是 一 个 单纯 的 字符 串 ， 
从 而 才能 仅 用 一 列 来 适应 任何 可 能 的 数据 类 型 。 因 此 ， 没 有 好 办 法 来 阻止 无 效 数据 的 录入 。 


EAV/anti/insert-eav.sqgl 


INSERT INTO IssueAttributes (issue 1id, attr name, attr value) 
VALUES (1234, ‘date reported', 'banana'); -- Not an error! 


有 些 人 尝试 扩展 EAV 的 设计 ， 为 每 一 个 SQL 类 型 定义 一 个 单独 的 attr_value 列 ， 不 需 
使 用 的 列 就 留 空 。 这 可 以 让 你 使 用 SQL 的 数据 类 型 ， 却 使 得 查询 变 得 更 加 球 怖 : 





EAV/anti/data-types.sql 


SELECT issue 1d, COALESCE(attr value date, attr value datetime, 
attr_value_integer, attr_value numeric, attr_value float, 
attr_value_string, attr_value text) AS "date reported”" 

FROM IssueAttributes 

WHERE attr_name = 'date_ reported'; 


你 可 能 需要 添加 更 多 的 列 来 支持 用 户 自 定义 的 数据 类 型 或 者 域 domain)。 
6.2.5 无 法 确保 引用 完整 性 


在 传统 的 数据 库 中 , 你 可 以 定义 一 个 指向 另 一 张 表 的 外 键 来 约束 基 些 属性 的 取 值 范围 。 比 如 ， 
一 个 Bug 或 者 事件 的 status 属性 应 该 是 一 张 很 小 的 BugStatus 表 中 的 一 个 值 。 





EAV/aniiyforeign-key-plain.sql 


CREATE TABLE Issues ( 
issue_id SERIAL PRIMARY KEY ， 
-- other columns 
status VARCHAR(20) NOT NULL DEFAULT NEW  ， 
FOREIGN KEY (status) REFERENCES BugStatus(status) 


) 
在 EAV 的 设计 中 , 你 无 法 在 attr_value 列 上 使 用 这 种 约束 方法 。 引 用 完整 性 的 约束 会 应 用 
到 表 中 的 每 一 行 。 
EAV/anti/foreign-key-eav.sql 


CREATE TABLE IssueAttributes (人 


1ssue_id BIGINT UNSIGNED NOT NULL ， 

attr_name VARCHAR(100) NOT NULL ， 

attr_ value VARCHAR (100 ) ， 

FOREIGN KEY (attr_value) REFERENCES BugStatus(status) 
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如 末 你 像 这 样 定义 约束 , 那 会 踢 制 表 中 每 个 属性 的 值 都 必须 存在 于 BugStatus 中 ,而 不 仅仅 
是 Status 属性 。 


6.2.6 无 法 配置 属性 名 


你 老板 的 报表 依旧 非常 不 靠 谱 。 你 发 现 这 些 属性 的 命名 不 够 清晰 。 有 个 Bug 的 属性 叫做 
date_reported,， 但 另 一 个 Bug 记录 却 把 这 个 属性 称 作 report_date。 虽 然 两 者 都 很 请 晰 地 表达 
了 同样 的 意思 。 


既然 如 此 ， 你 又 要 如 何 计算 每 天 的 Bug 数 呢 ? 


EAV/anti/count.sqgl 


SELECT date reported, COUNT(*) AS bugs_per_date 
FROM (SELECT DISTINCT issue 1d, attr_value AS date reported 
FROM IssueAttributes 
WHERE attr_name IN ('date reported', 'report_ date ')) 
GROUP BY date_reported ; 
你 又 如 何 得 知 某 条 Bug 记录 没有 用 其 他 的 名 字 来 定义 属性 呢 ? 你 又 如 何 得 知 荣 条 Bug 记录 
没有 将 同一 个 属性 存储 了 两 遍 ? 你 又 要 如 何 阻 止 这 样 的 错误 发 生 ? 
有 一 个 解决 方案 是 将 attr_name 列 再 明成 一 个 外 键 ,并 指向 一 张 存储 着 所 有 可 能 出 现 的 属性 
名 的 表 。 然 而 ， 这 不 支持 在 运行 时 定义 的 各 种 属性 ， 即 使 那 是 EAV 设计 的 一 个 非常 普遍 的 使 用 
6.2.7 重组 列 


当 数 据 是 存储 在 一 张 传 统 的 表 中 时 ， 从 Issues 表 中 获取 一 整 行 记 录 ， 并 得 到 一 个 议题 的 所 
有 属性 是 个 很 平 弟 的 需求 。 

issue_id date_reported stats 优先 级 描 述 

1234 2009-06-01 NEW HIGH 存储 无 法 运行 


由 于 每 个 属性 在 IssueAttributes 表 里 都 存储 在 独立 的 行 中 ， 要 想像 上 和 面 那 样 按 行 获 取 所 
有 这 些 属 性 就 需要 执行 一 个 联结 查询 ， 并 将 结合 并 成 行 。 同 时 ， 必 须 在 写 碍 询 语句 的 时 候 就 知 
道 所 有 的 属性 名 称 。 下 面 的 碍 询 语句 重组 了 上 表 展 示 的 行 : 








EAV/anti/reconstruct.sql 


SELECT 1.1ssue_1d， 
11.attr _ value AS "date reported", 
12.attr_value AS "status", 
13.attr_value AS “prTorTty ， 
14.attr_value AS “qdqescrTptTon 
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FROM Issues AS 1 
LEFT OUTER JOIN IssueAttributes AS 11 


ON 1.1Sssue_ 1d = 11.1ssue_ id AND 11.attr_name = "date_reported 
LEFT OUTER JOIN IssueAttributes AS 12 

ON 1.1Ssue_ 1d = 12.1ssue_ id AND 1i2.attr_name = StatUSs 
LEFT OUTER JOIN IssueAttributes AS 13 

ON 1.1Sssue_ 1d = 13.1ssue_ id AND 13.attr_name = 'priority'; 
LEFT OUTER JOIN IssueAttributes AS 14 

ON 1.1issue _ 1d = 14.1ssue_ id AND 14.attr_name = 'description'; 


WHERE 1.1ssue 1d = 1234; 

你 必须 使 用 外 联结 来 进行 查询 ， 因 为 如 条 在 所 查询 的 这 些 属性 中 有 任何 一 个 不 在 Issue- 
Attributes 表 中 出 现 ， 则 内 联结 会 导致 整个 查询 返回 空 记 隶 。 随 着 属性 的 数量 不 断 增多 ， 联 结 
的 数量 也 不 断 增长 ， 查 询 的 开销 也 成 指数 级 地 增长 。 


6.3 ”如 何 识 别 反 模式 


如 采 你 听 到 项 目 团队 发 出 了 如 下 的 疑问 ， 很 有 可 能 网 征 使 用 了 EAV 反 模 式 .。 


D “数据 库 不 需要 修改 元 数据 就 可 以 扩展 。 你 还 可 以 在 运行 时 定义 新 的 属性 。 
关系 数据 库 不 文 持 这 种 程度 的 灵活 性 。 当 菜 人 声称 能 够 设计 一 个 可 以 任意 扩展 的 数据 库 
时 ， 他 基本 上 用 的 就 古 EAV 的 设计 。 

D 得 询 时 我 能 用 的 最 大 数量 的 联结 征 多 少 ? 
如 琳 你 需要 一 个 文 持 如 此 多 联结 的 查询 ， 并 且 联 结 的 数量 可 能 会 达到 数据 库 的 限制 时 ， 
你 的 数据 库 的 设计 可 能 是 有 问题 的 。 而 EAV 的 设计 很 有 可 能 会 导致 这 样 的 问题 。 

D “我 想象 不 出 怎么 为 我 们 的 电子 商务 平台 生成 报告 。 我 们 需要 诗 一 个 顾问 来 做 这 事 。 
似乎 很 多 现 有 的 数据 库 驱 动 的 软件 使 用 EAV 的 设计 来 支持 其 强大 的 自 定义 能 力 ， 而 这 使 
得 很 多 普通 的 报表 得 询 变 得 极度 复杂 其 至 不 切实 际 。 


6.4 合理 使 用 反 模 式 


在 关系 数据 库 中 很 难为 EAV 这 个 反 模式 正名 , 因为 这 束 不 得 不 放弃 关系 型 范式 的 太 多 优点 。 
但 这 不 影响 在 茶 些 程序 中 合理 地 使 用 这 种 设计 来 支持 动态 属性 。 


大 多 数 应 用 程序 仅仅 在 有 限 的 几 张 表 甚 至 于 仅 一 张 中 需 要 存储 无 艺 式 的 数据 , 而 其 他 的 数据 
需求 适用 于 标准 的 表 设 计 。 如 末 你 明白 在 你 的 项 目 中 使 用 EAV 设计 的 风险 和 你 要 做 的 额外 工作 ， 
并 且 谴 慎 地 使 用 它 ， 它 的 副作用 会 变 得 较 小 。 但 请 一 定 要 记 住 ,那些 富有 经 验 的 数据 库 顾 问 给 
的 报告 显示 ， 使 用 EAV 设计 的 系统 在 一 年 以 内 就 会 变 得 极其 体重 。 


如 村 你 有 非 关 系数 据 笔 理 的 需求 ， 最 好 的 答案 是 使 用 非 天 系 技术 。 这 生 一 本 关于 SQL 的 书 ， 
而 不 是 关于 SQL 选择 的 问题 ， 因 此 我 会 简单 地 列 出 一 些 相关 的 技术 。 
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口 Berkeley DB 古 一 个 流行 的 Key-Value 存储 服务 ， 非 党 容易 被 整合 进入 大 部 分 程序 。 
http://www.oracle.com/technology/products/berkeley-db/ 

口 Cassandra 是 一 个 分 布 式 有 的 面向 列 的 数据 库 ， 由 Facebook 开发 ,并 提交 给 了 Apache 项 目 。 
http://incubator.apache.org/cassandra/ 

口 CouchDB 是 一 个 面向 文档 的 数据 库 一 一 一 个 分 布 式 的 Key-Value 存储 系统 , 使 用 JSON 编 
码 数 据 。 
http://couchdb.apache.org/ 

口 Hadoop 和 HBase 组 装 了 一 个 开源 的 DBMS， 借助 于 Google 的 MapReduce 算法 为 分 布 式 
大 数据 量 查 询 提 供 分 结构 数据 存储 。 
http://hadoop.apache.org/ 

D MongoDB 是 一 个 像 CouchDB 一 样 的 面 加 文档 的 数据 库 。 
http:/www.mongodb.org/ 

DRedis 是 一 个 文件 导 癌 的 内 存 数据 库 。 
http://code.google.com/p/redis/ 

口 Tokyo Cabinet 是 一 个 Key-Value 存储 结构 , 结合 了 POSIX DBM、GNU GDBM 或 Berkeley 
DB。 
http://1978th.net/ 


很 多 其 他 的 非 关 系数 据 库 项 目 也 在 不 断 地 涌现 。 然 而 ， 在 传统 数据 库 中 使 用 EAV 设计 的 劣 
势 也 体现 在 这 些 非 关系 数据 库 上 。 当 元 数据 不 具有 固定 格式 时 ,再 简单 的 查询 都 会 变 得 非常 困难 。 
上 层 应 用 就 需要 花费 更 多 的 时 间 、 精 力 来 组 织 数 据 结 构 。 
6.5 解决 方案 : 模型 化 子 类 型 

如 果 EAV 对 于 你 的 程序 而 言 是 正确 的 选择 ,你 仍然 需要 在 执行 这 个 设计 之 前 重新 审视 一 遍 。 
通过 对 列 进行 一 些 虽 然 老 式 但 很 好 的 分 析 , 很 可 能 会 发 现 你 的 项 目的 数据 可 以 更 方便 地 被 模型 化 
到 一 个 传统 的 表 里 ， 同 时 也 提供 了 更 保险 的 数据 完整 性 支持 。 

除去 使 用 EAV， 还 有 好 几 个 方法 来 存储 这 样 的 数据 。 当 子 类 型 数量 有 限时 ， 大 多 数 解决 方 
案 都 能 很 好 地 工作 , 并 且 你 知道 每 个 子 类 型 的 属性 。 哪 个 解决 方案 最 合适 依赖 于 你 查询 数据 的 方 
式 ， 因 此 你 应 该 具体 案例 具体 分 析 。 
6.5.1 单 表 继承 

最 简单 的 设计 是 将 所 有 相关 的 类 型 都 存在 一 张 表 中 ,为 所 有 类 型 的 所 有 属性 都 保留 一 列 。 同 
时 ， 使 用 一 个 属性 来 定义 每 一 行 表示 的 子 类 型 。 在 这 个 例子 中 ， 这 个 属性 称 作 issue_type。 对 
于 所 有 的 子 类 型 来 说 ， 既 有 一 些 公 共 属 性 ， 但 同时 又 有 一 些 子 类 型 特有 属性 。 这 些 子 类 型 特有 属 
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性 列 必须 支持 空 值 ， 因 为 根据 子 类 型 的 不 同 ， 有 些 属 性 并 不 需要 填写 ， 从 而 对 于 一 条 记录 来 说 ， 
那些 非 空 的 项 会 变 得 比较 零散 。 

这 个 设计 的 名 字 来 源 于 Martin Flower 的 一 本 著作 : Patterns of Enterprise Application 
Architecture[Fow03|。 


EAV/soln/create-sti-table.sql 


CREATE TABLE Issues ( 


1ssue_1id SERIAL PRIMARY KEY ， 

reported_by BIGINT UNSIGNED NOT NULL ， 

product_1d BIGINT UNSICNED, 

priority VARCHAR (20), 

version_resolved VARCHAR(20), 

status VARCHAR (20), 

1ssue_type VARCHAR(10), -- BUG or FEATURE 

severity VARCHAR(20), -- only for bugs 
version_affected VARCHAR(20), -- only for bugs 

sponsor VARCHAR(50), -- only for feature requests 


FOREIGN KEY (reported by) REFERENCES Accounts(account_1d) 
FOREICN KEY (product _ 1d) REFERENCES Products(product_1d) 
) 
当 程 序 需要 加 入 新 对 象 时 ， 必 须 修 改 数据 库 来 适应 这 些 新 对 象 。 又 由 于 这 些 新 对 象 具有 一 些 
和 老 对 象 不 同 的 属性 ， 因 而 必须 在 原 有 表 里 增加 新 的 属性 列 。 可 能 会 遇 到 一 个 很 实际 问题 ， 就 是 
每 张 表 的 列 的 数量 是 有 限制 的 。 
单 表 继承 的 男 一 个 限制 就 是 没有 任何 的 元 信息 来 记录 哪个 属性 属于 哪个 子 类 型 。 在 你 的 程序 
中 ， 假 如 你 知道 有 些 属性 并 不 适用 于 一 个 特定 的 行 所 表示 的 子 类 型 对 象 ， 那 么 就 可 以 名 略 它 们 。 
但 必须 手动 地 跟踪 哪些 属性 适用 于 哪些 子 类 型 。 即 使 我 们 知道 如 果 能 用 元 数据 在 数据 库 中 定义 
这 些 会 更 好 ， 但 也 无 能 为 力 。 
当 数据 的 子 类 型 很 少 ， 以 及 子 类 型 特殊 属性 很 少 ， 并 且 你 需要 使 用 Active Record 模式 来 访 
问 单 表 数据 库 时 ， 单 表 继 承 模 式 是 最 佳 选择 。 


6.5.2 ”实体 表 继 承 


另 一 个 解决 方案 是 为 每 个 子 类 型 创建 一 张 独 立 的 表 。 每 个 表 包 含 那 些 属于 基 类 的 共有 属性 ， 
同时 也 包含 子 类 型 特殊 化 的 属性 。 这 个 设计 的 名 字 来 源 于 Martin Fowler 的 书 。 


EAV/soln/create-concrete-tables.sql 

















CREATE TABLE Bugs ( 


1ssue_id SERIAL PRIMARY KEY, 
reported_by BIGINT UNSIGNED NOT NULL, 
product_1d BIGINT UNSIGNED, 

priority VARCHAR (20), 
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version resolved VARCHAR(20), 


status VARCHAR (20), 
severity VARCHAR(20), -- only for bugs 
version_affected VARCHAR(20), -- only for bugs 


FOREIGN KEY (reported by) REFERENCES Accounts(account_1d), 
FOREION KEY (product_ 1d) REFERENCES Products(product_1d) 


J 
CREATE TABLE FeatureRequests 人 
Tssue_1d SERIAL PRIMARY KEY ， 
reported_by BIGINT UNSIGNED NOT NULL ， 
product_id BIGINT UNSIONED ， 
priority VARCHAR (20), 
version_resolved VARCHAR(20), 
status VARCHAR (20 1) ， 
sponsor VARCHAR(50), -- only for feature requests 


FOREIGN KEY (reported by) REFERENCES Accounts(account_1d), 
FOREIGCN KEY (product_ 1d) REFERENCES Products(product_1d) 
2 


实体 继承 设计 相 比 于 单 表 继 承 设计 的 优势 在 于 提供 了 一 种 方法 , 让 你 能 阻止 在 一 行内 存储 一 
些 和 当前 子 类 型 无 关 的 属性 。 如 果 你 引用 一 个 并 不 存在 于 这 张 表 中 的 属性 列 , 数据 库 会 自动 提示 
你 错误 。 比 如 ，severity 列 并 不 在 FeatureRequests 表 中 : 





EAV/soln/insert-concrete.sql 
INSERT INTO FeatureRequests (1issue 1d, severity) VALUES ( ... ); -- ERRORI 
另 一 个 使 用 实体 继承 表 设 计 的 好 处 便 是 , 不 用 像 在 单 表 继 承 设计 里 那样 使 用 额外 的 属性 来 标 


然而 ， 很 难 将 通用 属性 和 子 类 特有 的 属性 区 分 开 来 。 因 此 ， 如 采 将 一 个 新 的 属性 增加 到 通用 
属性 中 ， 必 须 为 每 个 子 类 表 都 加 一 过 。 


疫 有 元 数据 标记 这 些 存储 在 目 己 表 中 的 子 类 型 相互 之 间 有 什么 关系 。 那 意味 着 ， 如 采 一 
个 新 来 的 程序 员 碍 看 这 些 表 定义 ， 他 只 会 注意 到 所 有 子 类 型 的 表 中 都 有 一 些 重复 的 列 ， 但 元 
言 县 疫 有 告诉 他 任何 有 关 这 些 表 之 间 的 关系 ， 或 者 站 人 否 仅 仅 由 于 末 种 巧合 ， 才 使 得 这 些 表 长 
得 如 此 相似 。 


如 条 你 和 而 望 不 芳 虑 子 类 型 而 在 所 有 对 象 中 进 
件 事 情 变 得 简单 一 点 ， 就 需要 创建 一 个 视图 联合 





行 过 着 查找 ,问题 会 变 得 很 复杂 。 如 朱 想 要 将 这 
这 些 表 ， 仅 选择 公共 的 列 。 





EAV/Ssoln/view-concrefe.sdl 


CREATE VIEW Issues AS 


SELECT b.*， bug ”AS issue type 
FROM Bugs AS b 
UNION ALL 
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SELECT f.x, 'feature' AS issue type 
FROM FeatureRequests AS f; 


当 你 很 少 需 要 一 次 性 查询 所 有 子 类 型 时 ， 实 体 继承 表 设 计 古 最 好 的 选择 。 





6.5.3 ”类 表 继 承 


第 三 个 解决 方案 模拟 了 继承 ， 把 表 当 成 面 加 对象 里 的 类 。 创 建 一 张 基 类 表 ,， 包含 所 有 子 类 型 
的 公共 属性 。 对 于 每 个 子 类 型 ， 创 建 一 个 独立 的 表 , 通过 外 键 和 基 类 表 相 连 。 这 个 设计 的 名 称 同 
样 来 日 于 Martin Fowler 的 书 。 

EAV/soln/create-class-tables.sql 


CREATE TABLE Issues ( 


1ssue_1id SERIAL PRIMARY KEY ， 
reported_by BIGINT UNSIGNED NOT NULL, 
product_1d BIGINT UNSIGNED, 

priority VARCHAR (20), 
version_resolved VARCHAR(20), 

status VARCHAR (20), 


FOREION KEY (reported by) REFERENCES Accounts(account_1d), 
FOREIGCN KEY (product 1d) REFERENCES Products(product_1d) 


2 

CREATE TABLE Bugs ( 
i1ssue_id BIGINT UNSIGNED PRIMARY KEY ， 
severity VARCHAR (20), 


version affected VARCHAR(20), 
FOREIGN KEY (issue 1d) REFERENCES JIssues(1issue 1d) 


J 


CREATE TABLE FeatureRequests ( 
issue_id BIGINT UNSIGNED PRIMARY KEY, 
sponsor VARCHAR(50), 
FOREIGN KEY (issue iid) REFERENCES Issues(issue 1d) 


); 

基 类 表 和 子 类 表 之 间 一 对 一 的 关系 由 元 数据 来 确保 , 因为 子 类 型 表 的 外 键 也 同样 是 主键 , 因而 
就 必须 是 唯一 的 。 这 个 解决 方案 提供 了 一 个 高 效 的 方法 来 查询 所 有 的 记录 , 因为 你 仅仅 查询 基 类 的 
属性 。 一 旦 你 找到 了 合适 的 记录 ， 就 可 以 通过 查询 对 应 的 子 类 型 表 来 获取 子 类 型 特殊 化 的 属性 。 

你 不 需要 了 解 在 基 类 表 中 的 行 表示 的 是 哪个 子 类 型 ， 如 条 仅 有 很 少 的 子 类 型 ,那么 可 以 写 一 
个 联结 查询 来 一 次 性 获取 所 有 的 记录 , 产生 一 个 像 单 表 继 承 设 计 里 的 那样 稀 玻 结 末 集 。 当 这 个 子 
类 型 不 具有 某 个 属性 时 ， 其 值 是 至 的 。 

















EAV/soln/selecf-class.sdql 


SELECT i.x, bix, fx 
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FROM Issues AS 1 
LEFT OUTER JOIN Bugs AS b USING (issue_ 1d) 
LEFT OUTER JOIN FeatureRequests AS f USING (issue_1d) ; 


这 也 是 定义 一 个 视图 的 好 方法 。 


当 你 经 常 要 查询 所 有 子 类 型 时 这 个 设计 是 最 佳 选择 ， 引 用 这 些 公共 列 就 行 了 。 
6.5.4 半 结 构 化 数据 模型 


如 果 你 有 很 多 子 类 型 或 者 你 必须 经 党 地 增加 新 的 属性 支持 ， 那 么 可 以 使 用 一 个 BLOB 列 来 存 
储 数 据 ， 用 XML 或 者 JSON 格式 一 一 同时 包含 了 属性 的 名 字 和 值 。Martin Fowler 称 这 个 模式 为 : 
序列 化 大 对 象 块 (Serialized LOB ) 。 





EAV/soln/create-blob-tables.sql 


CREATE TABLE Issues ( 


1ssue_id SERIAL PRIMARY KEY, 

reported_by BIGINT UNSIGCNED NOT NULL ， 

product_1d BIGINT UNSIONED ， 

priority VARCHAR (20), 

version resolved VARCHAR(20), 

status VARCHAR (20), 

1ssue_type VARCHAR(10), -- BUG or FEATURE 

attributes TEXT NOT NULL, -- all dynamic attributes for the row 


FOREIGN KEY (reported by) REFERENCES Accounts(account_1d), 
FOREIGN KEY (product_ 1d) REFERENCES Products(product_1d) 
2 
这 个 设计 的 优势 之 处 就 在 于 其 优异 的 扩展 性 。 你 可 以 在 任何 时 候 ,， 将 新 的 属性 添加 到 blob 字段 
中 。 每 行 存储 一 个 完整 的 属性 集合 ， 因 此 你 可 以 有 尽 可 能 多 的 子 类 型 ， 有 多 少 行 就 可 以 有 多 少 个 。 
相应 地 ， 该 设计 的 缺点 就 是 在 这 样 的 一 个 结构 中 ，SQL 基本 上 没有 办 法 获取 某 个 指定 的 属 
性 。 你 不 能 在 一 行 blob 字段 中 简单 地 选择 一 个 独立 的 属性 ， 并 对 其 进行 限制 、 聚 合 运算 、 排 序 
等 其 他 操作 。 你 必须 获取 整个 blob 字段 结构 并 通过 程序 去 解码 并 且 解 释 这 些 属性 。 
当 你 不 能 将 需求 和 设计 限制 在 一 个 有 限 的 子 类 型 集合 中 , 或 者 当 你 需要 绝对 的 灵活 性 以 在 任 
何 时 间 调 整 属性 时 ， 这 个 方 委 就 是 最 佳 选择 。 
6.5.5 ”后 处 理 
遗憾 的 是 ， 有 时 你 不 得 不 使 用 EAV 设计 ， 比 如 你 接手 了 一 个 项 目 ， 但 不 能 改变 它 的 原始 设 
计 ， 或 者 你 的 公司 获得 了 一 个 第 三 方 的 软件 ， 并 且 恰 巧 使 用 的 是 EAV。 如 果 是 这 样 的 情况 ， 请 
牢记 在 6.2 节 中 我 们 所 描述 的 那些 问题 ， 从 而 你 可 以 有 所 准备 并 且 计 划 好 额外 的 工作 来 让 这 个 设 
计 工 作 民 好 。 
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综 上 所 述 , 别 笃 试 像 在 传统 表 中 那样 写 查询 语句 , 将 实体 当成 单行 数据 读 取 。 取而代之 的 是 ， 
查询 和 实体 关联 的 属性 并 且 将 这 些 行 组 合 在 一 起 ， 就 像 它 们 存储 的 结构 一 样 。 


EAV/soln/post-process.sql 


SELECT 1ssue 1d, attr name, attr value 
FROM IssueAttributes 
WHERE 1ssue 1d = 1234; 


查询 的 结 坟 应 该 如 下 表 : 


issue_id attr_name attr_value 
1234 date reported 2009-06-01 
1234 description Saving does not work 
1234 priority HIGH 
1234 product Open RoundFile 
1234 reported by Bill 
1234 Severity loss of functionality 
1234 status NEW 


这 个 查询 对 你 来 说 写 起 来 很 容易 ， 对 数据 库 来 说 执行 起 来 也 很 容易 。 即 使 当 你 写 这 个 查询 的 
时 候 并 不 知道 有 多 少 相关 属性 ， 它 依旧 会 返回 和 这 个 事件 相关 的 所 有 属性 。 

要 使 用 这 种 格式 的 结 末 , 你 需要 在 程序 中 写 一 段 代码 来 所 历 结 琳 集 中 的 每 一 行 记 录 , 并 且 设 
置 程序 中 对 象 的 属性 。 下 面 有 个 PHP 的 代码 范例 : 


EAV/soIn/post-process.php 








<?php 
$objects = array() ; 


$stmt = $pdo->query( 
"SELECT 1ssue 1id, attr name, attr value 
FROM IssueAttributes 
WHERE Tssue 1d = 1234"); 


while ($row = $stmt->fetch()) £ 
$1d = $row[ 'issue 71d"]; 
$field = $row[ 'attr name']; 
$value = $row[ 'attr value'l]; 
if (larray key exists($1id, $objects)) { 
$objects[$id] = new stdClass() ; 
上 


$objects[$id]->$field = $value; 
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6.5 解决 方案 : 模型 化 子 类 型 号 03 
这 看 上 去 有 太 多 的 工作 要 做 ,但 这 就 古 使 用 像 EAV 这 样 的 一 个 系统 套 系 统 结构 所 造成 的 


SQL 已 经 提供 了 一 个 方法 来 明确 地 定义 属性 一 一 在 明确 的 列 中 。 使 用 EAV 设计 ， 你 让 SQL 
使 用 新 的 方法 来 定义 属性 ， 因 此 SQL 对 于 这 种 方法 的 支持 古 如 此 案 抽 和 低 效 也 不 足 为 奇 了 。 





为 元 数据 使 用 元 数据 。 
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第 多 章 
第 公章 


多 俯 天 有 联 


的 确 ， 有 些 人 是 两 面 派 。 
稻草 人 ，《 绿 野 仙 踪 》 


让 我 们 允许 用 户 对 Bug 记录 进行 评论 。 一 个 给 定 的 Bug 可 能 
会 有 很 多 评论 ， 但 任何 的 评论 都 只 针对 一 个 Bug 记录 。 因 此 ， 在 Comments 
Bug 和 评论 之 间 是 一 对 多 的 关系 。 这 种 简单 的 关系 如 图 7-1 所 示 ， 


7-1 简单 关系 
接 下 来 的 SQL 脚本 显示 如 何 创建 这 张 表 。 I 


Polymorphic/intro/comments.sql 


CREATE TABLE Comments ( 
comment_1id SERIAL PRIMARY KEY ， 
bug_1d BIGINT UNSIGNED NOT NULL ， 
author_1d BIGINT UNSIGNED NOT NULL ， 
comment_date DATETIME NOT NULL ， 
comment TEXT NOT NULL, 
FOREIGN KEY (Cauthor 1d) REFERENCES Accounts(account_ 1d), 
FOREIGN KEY (bug_1id) REFERENCES Bugs (bug_1d) 
大 


但 是 ， 可 以 进行 评论 的 表 可 能 会 有 两 张 ，Bugs 和 FeatureRequests 是 类 似 的 实体 ， 尽 管 
你 可 能 分 开 存 储 它 们 (参见 6.5 市) 。 你 想 要 在 单 表 中 存储 所 有 的 评论 ， 不 关心 它们 的 类 型 一 一 
无 论 是 Bug 还 是 新 特性 一 一 但 你 不 能 声明 一 个 指 癌 多 张 表 的 外 键 。 如 下 的 定义 是 无 效 的 : 





Polymorphic/intro/nonsense.sql 


FOREIGN KEY (issue 1d) 
REFERENCES Bugs(issue 1d) OR FeatureRequests(issue 1d) 
2 


有 些 开 发 人 员 还 尝试 着 写 如 下 的 SQL 语句 奋 询 多 张 表 ， 却 古 无 效 的 : 
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Polymorphic/intro/nonsense.sql 


SELECT CcC.x, 1.summary, 1.status 
FROM Comments AS c 
JOIN c.1issue type AS 1 USING (1issue_1d); 





SQL 不 文 持 按 行 联结 不 同 的 表 。SQL 多 语法 要 求 提交 查询 时 束 明 确 写 明 所 有 的 表 名 。 奔 询 
过 程 中 表 名 不 能 修改 。 这 样 的 情况 问题 出 在 哪里 ， 要 怎么 解决 呢 ? 


7.1 目标 : 引用 多 个 父 表 


在 “绿野仙踪 ”里 ， 当 多 葛 西 询问 稻草 人 她 应 该 走 哪 条 路 才能 到 翡 葛 城 时 ， 稻 草 人 指 给 
她 不 确定 的 方向 。 本 应 该 是 非常 简单 的 问题 ， 但 当 稻 草 人 一 次 指 了 两 条 路 给 她 时 ， 多 葛 西 迷惑 
起 来 。 

7-2 描绘 了 在 实体 关系 中 的 这 种 令 人 迷惑 的 联系 。 子 表 中 的 外 键 “分 又 ”了 , 因此 Comments 
表 中 的 一 条 记录 即 可 能 匹配 Bugs 表 中 的 革 条 记录 ， 也 可 能 匹配 于 FeatureReqeuests 表 中 的 某 
条 记录 。 


中 的 弧 线 表明 这 是 一 个 排他 选择 : 一 个 给 定 的 评论 只 能 引用 一 个 Bug 或 者 一 个 特性 。 


(Commens 
Feature 
Requests 


7-2 多 态 关 联 
















7.2 反 模 式 : 使 用 双 用 途 外 键 


有 一 个 解决 方案 已 经 流行 到 足以 正式 命名 了 ， 那 就 是 :多 态 关 联 。 有 时候 也 叫做 杂乱 关联 ， 
因为 它 可 以 同时 5| 用 多 个 表 。 


7.2.1 定义 多 态 关 联 


为 了 使 多 态 关 联 能 够 正常 工作 ， 在 issue_id 这 个 外 键 之 外 你 必须 再 添加 一 列 ， 这 个 额外 的 
列 记录 了 当前 行 所 引用 的 表 名 , 在 这 个 例子 中 , 这 个 额外 的 列 称 为 issue_type, 取 值 范围 是 Bugs 
或 者 FeatureRequests。 
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Polymorphic/anti/comments.sql 


CREATE TABLE Comments ( 
Comment_1d SERIAL PRIMARY KEY ， 


1ssue_type VARCHAR (20 ) ， -- "Bugs” or “FeatureRequests" 
1ssue_1d BIGINT UNSIGNED NOT NULL ， 

author BIGINT UNSIGNED NOT NULL ， 

comment_date DATETIME ， 

comment TEXT ， 

FOREIGN KEY (author) REFERENCES Accounts(account_1d) 


2 

你 立刻 就 可 以 发 现 一 个 区 别 : issue_id 上 的 外 键 定义 不 见 了 。 事 实 上 ， 由 于 一 个 外 键 必 须 
指定 一 个 确切 的 表 , 使 用 多 态 关 联 就 意味 着 无 法 在 元 数据 中 定义 这 样 的 关系 。 因 而 ， 就 没有 任何 
保障 数据 完整 性 的 手段 来 确保 Comments.issue_id 中 的 值 在 其 父 表 中 存在 。 


同样 地 ,没有 元 数据 来 确保 Comments .issue_type 中 的 值 确实 对 应 于 数据 库 中 存在 的 一 张 表 。 


你 可 能 已 经 注意 到 了 多 态 关联 和 前 一 章 的 EAV 反 模 式 有 着 相似 的 特征 。 在 这 两 个 反 模 
式 中 ， 元 数据 对 象 的 名 字 是 存储 在 字符 串 中 的 。 在 EAV 中 ， 属 性 列 的 名 字 是 以 字符 串 的 格 
式 存 储 在 attr_name 列 中 。 在 多 息 关联 中 ， 和 父 表 的 名 字 是 存储 在 issue_type 列 中 的 。 有 时 
这 样 的 设计 被 称 为 : 混合 数据 与 元 数据 。 第 8 章 会 有 更 详细 的 概念 解释 。 


7.2.2 使 用 多 态 关 联 进行 查询 


在 Comments 表 中 的 一 个 1ssue_id 可 能 同时 出 现在 Bugs 和 FeatureRequests 这 两 张 父 表 中 ， 
或 者 只 出 现在 其 中 一 张 表 里 。 因 此 ， 在 使 用 issue_type 进行 联结 查询 时 ， 束 必须 格外 谨慎 ， 必 
须 确 保 不 会 出 现 明 明 是 要 查找 Bugs 的 评论 ， 却 获得 了 FeatureRequests 的 评论 这 种 情况 。 

比如 ， 如 下 的 查询 目的 在 于 获取 id 为 1234 的 这 个 Bug 的 所 有 评论 : 


Polymorphic/anti/select.sql 





SELECT * 
FROM Bugs AS b JOIN Comments AS c 

ON (b.issue 1d = c.1issue 1d AND c.issue type = 'Bugs') 
WHERE b.issue 1d = 1234; 


当 所 有 的 Bug 记录 都 是 存在 单个 的 Bugs 表 中 时 ， 上 面 的 这 个 查询 能 够 正常 地 工作 ， 但 当 
Comments 同时 和 Bugs 表 以 及 FeatureRequests 表 相 关联 时 ， 束 会 出 现 回 题 。SQL 的 语法 规定 ， 
在 联结 查询 时 必须 指明 所 有 需要 查询 的 表 ， 没 办 法 在 查询 过 程 中 根据 Comments.issue_type 的 
值 来 切换 不 同 的 表 。 
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要 查找 一 条 给 定 的 评论 对 应 的 Bug 记录 或 者 特性 需求 ， 需 要 执行 一 条 同时 外 联 Bugs 和 
FeatureRequests 两 张 表 的 青 询 。 仅 有 一 张 表 注 足 这 个 达 询 需求 ， 因 为 联结 三 询 的 条 件 依赖 于 
Comment .issue_type 中 的 值 。 使 用 外 联结 意味 着 结 示 中 那些 来 自 于 非 匹 配 的 字段 将 为 空 值 。 


Polymorphic/anti/select.sql 


SELECT * 
FROM Comments AS < 
LEFT OUTER JOIN Bugs AS b 
ON (b.issue id = c.issue id AND c.issue type = “BuUgs ') 
LEFT OUTER JOIN FeatureRequests AS f 


ON (f.1issue_ id = c.issue id AND c.issue type = 'FeatureRequests ' ) ; 
结果 看 起 来 类 似 下 面 这 样 。 
c.comment_id Cc.issue_type c.issue_id Cc.Comment b.issue_id f.issue_id 
0789 Bugs 1234 It crashes! 1234 NULL 
9870 Feature... 2345 Great ldeal NULL 2345 


7.2.3” 非 面 品 对 和 象 范 例 


在 Bugs 和 FeatureRequests 的 例子 中 ， 这 两 张 表 代 表 了 模型 相关 的 子 类 型 。 多 态 关 联 也 同 
样 可 以 用 在 那些 父 表 间 完全 无 关 的 设计 中 。 比 如 ， 在 一 个 电子 商务 数据 库 中 ，Users (用 户 ) 和 
Orders (订单 ) 这 两 张 表 可 能 都 和 Addresses (地 址 ) 相关 ， 如 图 7-3 所 示 。 


Polymorphic/anti/addresses.sql 


CREATE TABLE Addresses ( 
address_1d SERIAL PRIMARY KEY ， 


parent VARCHAR (20),， -- "Users” or "Orders" 
parent_1d BIGINT UNSIGNED NOT NULL ， 
address TEXT 


| 


Addresses 


(地 址 ) 





7-3 ”地 址 多 态 关 联 





在 这 个 例子 中 , Addresses 表 有 一 个 多 态 列 , 对 于 给 定 的 一 条 地 址 记录 , 其 父 表 的 值 为 Users 
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或 者 0rders， 两 者 二 选 其 一 。 一 个 给 定 的 地 址 不 能 既 和 用 户 相 关 ， 又 和 订单 相关 ， 即 使 订单 可 


能 起 由 


一 个 用 户 创 建 然后 邮寄 给 他 自己 的 。 


此 外 ， 如 果 一 个 用 户 的 收 货 地 址 也 是 账单 地 址 ， 你 应 该 在 Addresses 表 中 将 其 区 分 开 来 ; 同 
样 地 , 任何 其 他 的 父 表 都 需要 留意 Addresses 表 中 不 同 的 地 址 字段 的 特殊 用 处 。 这 些 说 明 信 息 将 
像 野 草 一 样 疯长 。 


Polymorphic/anti/addresses.sql 


CREATE TABLE Addresses ( 


{1.3 


address_1d SERIAL PRIMARY KEY ， 


parent VARCHAR(20), -- "Users” or "Orders" 
parent_id BIGINT UNSIGCNED NOT NULL ， 

users usage VARCHAR(20), -- "billing”" or "shipping" 
orders_usage VARCHAR(20), -- "billing”" or "shipping" 
address TEXT 


如 何 识别 反 模 式 


如 琳 你 昕 到 类 似 下 面 的 这 些 说 法 ， 那 有 可 能 就 使 用 了 多 态 关 联 的 反 模式 了 。 


口 


DD 


“这 种 标记 架构 可 以 让 你 将 标记 (或 者 其 他 属性 ) 和 数据 库 中 的 任何 其 他 资源 联系 起 来 。 
就 像 EAV 的 设计 一 样 ， 你 应 该 怀疑 任何 声称 有 无 限 扩 展 性 的 设计 。 

“你 不 能 在 我 们 的 数据 库 设 计 中 声明 外 键 。 

这 是 男 一 个 危险 信 写 。 外 键 是 关系 数据 库 的 基本 特征 ， 一 个 没有 适当 的 引用 完整 性 的 设 
计 会 有 很 多 的 问题 。 

“entity_type 这 列 是 干 嘛 的 ? 哦 ， 那 个 列 是 用 来 告诉 你 这 条 记录 的 其 他 列 是 和 什么 东西 
相关 的 。 

任何 外 键 都 强制 一 张 表 中 所 有 的 行 引 用 同一 张 表 。 





Ruby on Rails 的 框架 通过 声明 带 有 :po1ymorphic 属性 的 Active Record 类 来 支持 多 态 关 联 。 


比如 ， 


你 可 以 使 用 如 下 方式 将 Comments 和 Bugs 以 及 FeatureRequests 关联 起 来 。 


Polymorphic/recog/commentable.rb 


class Comment < Act1TveRecord : :Base 


belongs_to :commentable, :polymorphic => true 


end 


class Bug < ActiveRecord::Base 


has_many :comments, :as => :commentable 


end 
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7.5 解决 方案 : 让 关系 变 得 简单 号 09 


class FeatureRequest < Act1veRecord: :Base 
has_many :comments, :as => :commentable 
end 


Java Hibernate 框架 使 用 大 量 的 模式 定义 来 支持 多 态 关联 。 


7.4 合理 使 用 反 模 式 
你 应 该 尽 可 能 地 避免 使 用 多 态 关联 一 一 应 该 使 用 外 键 约束 等 来 确保 引用 完整 性 。 多 态 关联 通 
常 过 度 依赖 上 层 程序 代码 而 不 是 数据 库 的 元 数据 。 


当 你 使 用 一 个 面向 对 象 的 框架 (诸如 Hibernate) 时 ， 多 态 关联 似乎 是 不 可 避免 的 。 这 种 类 
型 的 框架 通过 民 好 的 逻辑 封装 来 减少 使 用 多 态 关 联 的 风险 。 如 来 你 选择 了 一 个 成 熟 、 有 信誉 的 框 
涤 ， 那 可 以 相信 框 染 有 的 作者 已 经 完整 地 实现 了 相关 的 逻辑 代码 ， 不 会 造成 蚀 误 。 但 如 未 你 不 使 用 
框架 而 目 己 从 头 开始 实现 ， 那 就 真有 重新 发 明 轮 子 之 嫌 了 。 


7.5 解决 方案 : 让 关系 变 得 简单 

既 要 避免 多 态 关 联 的 缺点 , 又 同时 支持 你 所 需要 的 数据 模型 , 最 好 的 选择 是 重新 设计 数据 库 。 
接 下 来 几 市 介绍 的 解决 方案 能 够 完全 满足 我 们 所 需 的 数据 关系 , 同时 又 使 用 数据 库 的 元 数据 来 确 
保 数 据 及 引用 的 完整 性 。 
7.5.1 反 回 引用 

当 你 看 清楚 问题 的 根 铸 时 ， 解 决 方案 将 变 得 异常 的 简单 : 多 态 关 联 是 一 个 反 向 关联 。 
7.5.2 创建 交 义 表 


Comments 表 中 的 外 键 无 法 同时 引用 多 张 父 表 ， 因 而 ， 我 们 使 用 多 个 外 键 同 时 引用 Comments 
表 妈 可 。 为 每 个 父 表 创 建 一 张 独 立 的 交叉 表 ， 每 张 交 叉 表 同时 包含 一 个 指 辐 Comments 的 外 键 和 
一 个 指向 对 应 父 表 的 外 键 ， 如 图 7-4 所 示 。 


Polymorphic/soln/reverse-reference.sql 














CREATE TABLE BugsComments ( 
1ssue_id BIGINT UNSIGNED NOT NULL, 
Comment 1d BIGINT UNSIGNED NOT NULL ， 
PRIMARY KEY (issue 1d，comment 1d) ， 
FOREIGN KEY (issue_ 1d) REFERENCES Bugs(issue_ 1d), 
FOREIGN KEY (comment 1d) REFERENCES Comments(comment_1d) 
2 


CREATE TABLE FeaturesComments ( 
1ssue_1d BIGINT UNSIGNED NOT NULL ， 
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这 个 解决 方案 移 除 了 对 Comments .issue_type 列 的 依赖 。 


第 7 章 多 态 关 联 


Comment 1d BIGINT UNSIGNED NOT NULL, 
PRIMARY KEY (issue 1d，comment 1d) ， 


FOREICN KEY (1ssue 1d) REFERENCES FeatureRequests(issue 1d) ， 
FOREIGN KEY (comment 1d) REFERENCES Comments(comment_ 1d ) 







E> 
A 


队 








本 到 


Comments 





Features 
Comments 
Feature 
Requests 





7-4 反问 多 态 关联 


性 了 ， 从 而 不 再 依赖 于 应 用 程序 代码 来 维护 数据 间 的 关系 。 


7.5.3 


设立 交通 灯 


现在 ， 元 数据 可 以 确保 数据 完整 


这 个 方案 的 凌 在 问题 是 可 以 加 入 一 些 你 可 能 不 希望 出 现 的 关系 。 交叉 表 通 常 是 多 对 多 关系 的 
模型 ， 因 而 这 个 设计 允许 一 个 给 定 的 评论 同时 和 多 个 Bug 或 者 多 个 特性 记录 相关 。 然 而 , 你 可 能 
是 希望 每 条 评论 都 只 涉及 一 个 Bug 或 者 一 个 特性 需求 。 我 们 可 以 通过 在 每 张 交 叉 表 的 comment_id 
列 上 声明 一 个 UNIQUE 的 约束 来 尽 可 能 地 支持 这 样 的 规则 。 


Polymorphic/soln/reverse-unique.sql 


CREATE TABLE BugsComments ( 


让 


这 样 就 能 确保 一 个 给 定 的 评论 在 一 张 交 又 表 中 


issue_id BIGCINT UNSICNED NOT NULL, 
comment_1d BIGINT UNSICNED NOT NULL ， 


UNIQUE KEY (comment_1d), 
PRIMARY KEY (issue 1d，comment 1d) ， 


FOREIGN KEY (issue_ 1d) REFERENCES Bugs(issue_1d), 
FOREIGN KEY (comment_1d) REFERENCES Comments(comment_1d) 


人 
只 月 


E 出 现 一 次 ， 从 而 确保 


其 只 


NA 人 


E 和 一 个 Bug 


或 者 一 个 特性 相关 。 然 而 , 元 数据 并 不 能 保证 一 个 给 定 的 评论 不 在 多 张 交 又 表 中 被 关联 。 如 末 这 
不 是 你 所 希望 的 ， 则 只 能 交 由 上 层 的 应 用 程序 代码 来 完成 了 。 
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7.5 解决 方案 : 让 关系 变 得 简单 二 71] 
7.5.4 双 问 查找 
我 们 可 以 方便 地 使 用 交叉 表 查 询 一 个 给 定 的 Bug 或 者 特性 需求 的 评论 。 


Polymorphic/soln/reverse-join.sql 


SELECT * 
FROM BugsComments AS b 

JOIN Comments AS c USING (CCcomment 1d ) 
WHERE b.1ssue 1d = 1234; 


我 们 也 可 以 使 用 一 个 外 联结 查询 两 张 交 叉 表 来 获得 一 条 评论 所 对 应 的 Bug 或 者 特性 需求 记 
隶 。 虽 然 在 查询 时 仍 不 得 不 给 出 所 有 相关 的 表 名 ,但 已 经 比 使 用 多 态 关 联 时 人 简单 不 少 。 同 样 地 ， 
使 用 交叉 表 还 能 獒 得 使 用 多 态 关 联 所 不 能 提供 的 引用 完整 性 支持 。 





Polymorphic/soln/reverse-join.sql 


SELECT * 
FROM Comments AS c 
LEFT OUTER JOIN (BugsComments JOIN Bugs AS b USING (issue_1d)) 
USING (comment_1d) 
LEFT OUTER JOIN (FeaturesComments JOIN FeatureRequests AS f USING (issue 1d)) 
USING (comment_1d) 
WHERE C.Comment 1d = 98706; 


7.5.5 合并 跑道 


某 些 情况 下 你 并 没有 使 用 之 前 描述 的 多 表 结 构 ， 而 将 多 张 父 表 都 存在 同一 张 表 中 〈 详 见 6.5 
市 )， 你 可 以 使 用 如 下 的 两 种 方法 来 获取 你 所 需要 的 结 来 。 


首先 我 们 来 看 下 面 这 个 使 用 UNION 的 查询 : 


Polymorphic/soln/reverse-union.sqgl 


SELECT b.issue 71d, b.description, b.reporter, b.priority, b.status, 
b.severity, b.version _ affected, 
NULL AS sponsor 


FROM Comments AS <C 
JOIN (BugsComments JOIN Bugs AS b USING (1ssue_ 1d)) 
USING (CCcomment 1d) 
WHERE C.Comment 1d = 9876 
UNION 
SELECT f.issue id, f.description, f.reporter, f.priority, f.status, 
NULL AS severity, NULL AS version affected, 
f.sponsor 
FROM Comments AS c 
JOIN (FeaturesComments JOIN FeatureRequests AS f USING (人 issue_ 1d)) 
USING (CCcomment 1d) 
WHERE C.Comment 1d = 9876 ; 





列 灵 社区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


72 > 第 7 章 多 态 关 联 


如 末 你 的 程序 已 经 确定 将 每 条 评论 只 和 一 张 父 表 关 联 , 那么 这 个 查询 古 能 够 保证 每 次 只 返回 
一 条 记录 的 。 由 于 UNION 查询 只 有 在 列 的 数量 和 数据 类 型 都 一 样 时 ,才能 将 查询 结 采 合并 , 因此 
你 必须 要 为 每 一 个 父 表 不 同 的 列 提供 一 个 null 占 位 符 。 在 UNION 的 查询 中 , 你 还 必须 用 同样 的 顺 
序 排列 两 次 查询 的 列 。 


男 一 种 方法 ， 可 以 先 看 一 下 下 面 这 个 使 用 SQL 的 COALESCEQ 〇 函数 的 查询 。 这 个 函数 返回 第 
一 个 非 空 的 结果 。 由 于 我 们 使 用 了 外 联结 查询 ， 一 条 和 需求 相关 并 且 在 Bugs 表 中 没有 匹配 项 的 
评论 ， 所 有 b.* 的 列 都 将 被 赋值 为 空 。 同 样 地 ， 一 条 和 Bug 相关 的 评论 ， 所 有 f.* 的 列 都 将 被 默 
认 地 填 入 空 值 。 用 简洁 的 方式 列 出 针对 某 一 父 表 专 有 的 列 : 凡是 该 记录 和 某 一 父 表 无 关 ， 则 那些 
字段 均 返 回 null。 

Polymorphic/soln/reverse-coalesce.sql 


SELECT C.x， 


COALESCE(KCb .issue 1d， f.issue 1d ) AS 1issue 1d, 
COALESCE(b.description, f.description) AS description, 
COALESCE(b.reporter, f.reporter ) AS reporter, 
COALESCE(b .priority, f.priority ) AS priority, 
COALESCE(b. status, f.status ) AS status, 


b.severity, 
b.version_affected ， 
f.sponsor 
FROM Comments AS <C 
LEFT OUTER JOIN (BugsComments JOIN Bugs AS b USING (issue_1d)) 
USING (comment_1d) 
LEFT OUTER JOIN (FeaturesComments JOIN FeatureRequests AS f USING (issue_1d)) 
USING (comment_1d) 
WHERE C.Comment 1d = 98706; 


这 几 个 查询 的 方案 都 比较 复杂 ， 因 此 ， 比 较 好 的 方式 站 通过 它们 创建 数据 库 视 图 ， 然 后 就 可 
以 在 你 的 应 用 程序 中 较为 简便 地 使 用 。 


7.5.6 创建 共用 的 超级 表 


在 面向 对 象 的 多 态 机 制 中 ， 两 个 继承 日 同一 个 父 类 的 子 类 
型 可 以 使 用 相似 的 方式 来 使 用 。 在 SQL 中 ， 多 态 关 联 这 个 反 模 
式 遗 漏 了 一 个 关键 实质 ， 共 用 的 父 对 象 。 我 们 可 以 通过 创建 一 站 
个 基 类 表 ， 并 让 所 有 的 父 表 都 从 这 个 基 类 表 扩 展 出 来 的 方法 来 
解决 这 个 问题 (参考 6.5 节 )。 在 Comments 子 表 中 添加 一 个 指 
器 其 类 表 的 外 人 键 ， 并 且 不 再 需要 issue_type 列 。 这 个 解决 方 
案 的 实体 图 可 以 用 图 7-5 表示 。 7-5 评论 和 基 类 表 的 联合 


Polymorphic/soln/super-fable.sql 









CREATE TABLE Issues ( 
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issue id SERIAL PRIMARY KEY 
JJ 


CREATE TABLE Bugs ( 
1Ssue_1d BIGINT UNSIGNED PRIMARY KEY ， 
FOREIGN KEY (issue 1d) REFERENCES Issues(1ssue 1d), 


CREATE TABLE FeatureRequests ( 
issue_id BIGINT UNSIGNED PRIMARY KEY, 
FOREIGN KEY (issue 1d) REFERENCES Issues(1ssue 1d), 


2); 
CREATE TABLE Comments ( 
Comment_1d SERIAL PRIMARY KEY ， 


1ssue_id BIGINT UNSIGNED NOT NULL ， 
author BIGINT UNSIGNED NOT NULL ， 
comment_date DATETIME ， 

comment TEXT ， 


FOREIGN KEY (issue 1d) REFERENCES Issues(issue 1d) ， 
FOREIGN KEY (author) REFERENCES Accounts(account_1d), 
请 注意 Bugs 和 FeatureRequests 表 的 主键 也 同时 是 外 键 。 它 们 引用 了 Issues 表 所 维护 的 
代理 主键 ， 而 不 用 自己 创建 它们 。 
给 定 一 个 评论 ， 你 可 以 通过 一 个 相对 简单 的 查询 就 获取 对 应 的 Bug 记录 或 者 需求 记录 。 而 
不 再 需要 在 查询 中 包含 Issues 表 ， 除 非 你 将 一 些 属性 定义 在 那 张 表 里 。 同 样 地 ， 由 于 Bugs 表 
的 主键 和 它 的 祖先 Issues 表 中 的 值 是 一 样 的 , 你 可 以 直接 对 Bugs 表 和 Comments 表 进 行 联结 
查询 。 也 可 以 对 两 张 没有 外 键 约束 直接 关联 的 表 进 行 联结 查询 ， 只 要 对 应 的 列 的 信息 是 可 比较 
的 即 可 。 





Polymorphic/soln/super-join.sqgl 


SELECT * 
FROM Comments AS c 

LEFT OUTER JOIN Bugs AS b USING (1ssue_1d) 

LEFT OUTER JOIN FeatureRequests AS f USING (人 issue_id) 
WHERE C.Comment 1d = 98706; 


对 于 一 个 指定 Bug， 你 同样 可 以 轻易 地 读 出 它 的 评论 。 


Polymorphic/soln/super-join.sqgl 


SELECT * 
FROM Bugs AS b 

JOIN Comments AS c USING (TSssue 1d) 
WHERE b.issue 1d = 1234; 
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更 重要 的 征 如 林 你 使 用 了 像 Issues 这 样 的 祖先 表 ， 束 可 以 依赖 外 键 来 确 傈 数据 的 完 束 性 。 


在 每 个 表 与 家 的 关系 中 ， 都 有 一 个 引用 表 和 一 个 被 引用 表 .。 
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A 6 
下 El 


罗列 属性 


超群 和 蕊 雇 的 分 界线 往往 非常 模糊 ， 很 难 明 确 地 区 分 。 
托马斯 活 忆 





我 已 经 数 不 清 创建 过 多 少 次 存储 联系 人 信息 的 表 了 。 每 次 都 有 一 些 共同 的 字段 ， 比 如 名 字 、 
称呼 、 地 址 、 公 司 等 


电话 写 码 有 一 点 玉 手 。 通 第 人 们 会 同时 拥有 多 个 号 码 : 家 庭 电 话 ， 工 作 电 话 ,传真 号 码 以 及 
手机 号 码 。 在 联系 人 信息 表 中 ， 分 4 列 来 存储 这 些 信息 是 很 简单 的 方法 。 


但 对 于 其 他 号 码 呢 ? 这 个 人 的 助理 的 号 码 、 男 一 个 移动 电话 的 号 码 , 或 者 外 地 办 事 处 的 全 然 
不 同 的 电话 号 码 ， 其 至 还 有 些 无 法 预计 的 分 类 。 我 可 以 为 这 些 并 不 闸 有 的 情况 创建 更 多 的 列 , 但 
这 看 上 去 很 牺 拙 ， 因 为 加 了 很 多 很 少 使 用 的 字段 。 而 且 ， 到 底 要 加 多 少 这 样 的 列 才 够 呢 ? 


8.1 目标 : 存储 多 值 属性 


这 征 和 第 2 章 一 样 的 目标 : 一 个 属性 看 上 去 虽然 只 属于 一 张 表 , 但 同时 可 能 会 有 多 个 值 。 之 
前 我 们 已 经 看 到 , 将 多 个 值 合并 在 一 起 并 用 逗号 分 阳 导 致 难以 对 数据 进行 验证 , 难以 读 取 或 者 改 
变 单个 值 ， 同 时 也 对 聚合 公式 (诸如 统计 不 同 值 的 数量 ) 非常 不 友好 。 


我 们 将 使 用 一 个 新 的 例子 来 说 明 这 一 反 模 式 。 我们 将 让 这 个 Bug 数据 库 允 许 加 入 标签 ,因而 
就 可 以 以 此 来 分 类 Bug。 某 些 Bug 可 能 是 由 它们 所 影响 的 软件 子 系统 ， 比 如 打印 、 报 表 或 者 邮件 
来 分 类 的 ; 另 一 些 Bug 可 能 是 由 它们 的 类 型 来 分 类 的 ， 比 如 一 个 造成 程序 月 涡 的 Bug 会 被 标记 
为 crash， 也 可 以 标记 为 performance 来 说 明 性 能 问题 ， 当 然 还 可 以 标记 cosmetic 来 说 明 用 户 界面 
的 颜色 选择 不 好 。 


这 个 给 Bug 打 标 等 的 特性 必须 文 持 多 标签 ， 因 为 标 铭 并 不 会 相互 排 不 。 一 个 Bug 可 能 同时 
影 啊 到 多 个 子 系统 ， 也 有 可 能 会 影 啊 到 子 系统 的 茶 个 特性 ， 比 如 “打印 的 性 能 ”。 
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8.2” 反 模 式 : 创建 多 个 列 


我 们 依旧 需要 芳 虑 一 个 属性 的 多 个 值 , 但 我 们 知道 每 列 最 好 只 存储 一 个 值 。 在 这 张 表 中 创建 
多 个 列 ， 每 个 列 只 存储 一 个 标签 看 上 去 很 卓然 。 


Multi-Column/anti/create-table.sql 





CREATE TABLE Bugs ( 


bug_1d SERIAL PRIMARY KEY ， 
description VARCHAR(1000), 

tagl VARCHAR (20), 

ad VARCHAR (C20), 

tag3 VARCHAR (20) 


); 

当 你 将 一 个 标签 指定 给 一 个 Bug 记录 时 , 必须 将 这 个 标签 存放 于 这 三 个 列 中 的 一 个 。 其 他 未 
使 用 的 列 将 保持 空 的 状态 。 

Multi-Column/anti/update.sql 


UPDATE Bugs SET tag2 = 'performance' WHERE bug_ id = 3456; 


bug_id description tagl tag2 tag3 
1234 Crashes while saving crash NULL NULL 
3430 Increase performance printing performance NULL 
5678 Support XML NULL NULL NULL 


在 使 用 传统 属性 设计 的 时 候 ， 很 简单 的 任务 现在 变 得 更 复杂 了 。 
8.2.1 查询 数据 


当 根 据 一 个 给 定 标签 查询 所 有 Bug 记录 时 , 你 必须 搜索 所 有 的 三 列 , 因为 这 个 标签 字符 串 可 
能 存放 于 这 三 列 中 的 任何 一 列 。 


比如 ， 要 获取 被 标记 为 performance 的 Bug， 需 要 使 用 如 下 的 一 个 查询 表达 式 : 
Multi-Column/anti/search.sql 


SELECT * FROM Bugs 

WHERE tagl = "performance 
OR tag2 = "performance 
OR tag3 = “performance " ; 


你 还 可 能 需要 查找 同时 被 标记 为 performance 和 printing 的 Bug。 要 完成 这 样 的 查询 , 就 需 
写 如 下 的 查询 语句 。 请 注意 必须 正确 地 使 用 括号 ， 因 为 OR 操作 比 AND 操作 的 优先 级 要 低 。 


Multi-Column/anti/search-two-tags.sql 


SELECT * FROM Bugs 
WHERE (tagl = 'performance' OR tag2 = “performance OR tag3 = “performance - ) 
AND (tagl = 'printing' OR tag2 = 'printing' OR tag3 = 'printing'); 
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在 多 个 列 中 查找 一 个 值 的 语法 是 见长 乏味 的 。 你 可 以 通过 一 种 非 传 统 的 方式 来 使 用 IN， 从 
而 使 得 这 个 查询 变 得 更 加 精简: 
Multi-Column/anti/search-two-tags.sql 


SELECT * FROM Bugs 
WHERE “performance ”IN (tagl, tag2, tag3) 
AND “prTntTng IN (tagl, tag2, tag3); 


8.2.2 添加 及 删除 值 

在 这 个 列 的 集合 中 添加 以 及 删除 一 个 值 也 是 有 问题 的 。 单 纯 地 使 用 UPDATE 语句 来 更 新 一 列 
的 值 是 不 安全 的 ， 因 为 你 无 法 得 知 到 底 哪 一 列 是 有 值 的 (如果 有 的 话 )。 你 可 能 不 得 不 将 整 行 数 
据 读 取 到 前 端 程序 中 来 分 析 。 


Multi-Column/anti/add-tag-two-step.sql 





SELECT * FROM Bugs WHERE bug_ id = 3456; 

举 个 例子 ， 假 设 我 们 知道 tag2 征 衬 的 。 于 是 写 出 如 下 的 UPDATE 语句 。 

Multi-Column/anti/add-tag-two-step.sql 

UPDATE Bugs SET tag2 = 'performance' WHERE bug_ id = 3456; 

这 么 做 ， 你 就 要 面 量 多 步 操作 间 的 数据 同步 问题 , 即 有 可 能 在 你 完成 一 次 查询 并 且 更 新 记录 
这 两 步 操作 之 间 ， 有 另 一 个 客户 端 也 同时 在 执行 相同 的 操作 。 根 据 更 新 操作 执行 顺序 的 不 同 ,， 你 
或 者 另 一 个 客户 端 将 得 到 一 个 “更 新 冲突 ”的 错误 ， 或 者 一 方 履 盖 了 另 一 方 的 数据 。 你 可 以 使 用 
更 复杂 的 SQL 语句 来 避免 这 样 的 问题 。 

如 下 的 表达 式 使 用 了 NULLIFO 函数 来 将 每 一 个 等 于 指定 值 的 列 置 为 空 。 当 传 入 的 两 个 参数 
相等 时 ，NULLIFGO 函数 返回 空 。 


Multi-Column/anti/remove-tag.sql 








UPDATE Bugs 

SET tagl NULLIF(tagl, 'performance'), 
tag2 = NULLIF(tag2, 'performance'), 
tag3 = NULLIF(tag3, 'performance') 

WHERE bug_ 1d = 3456; 


如 下 的 表达 式 将 performance 标签 加 到 党 一 个 空 列 中 。 然 而 ， 如 果 3 列 都 不 为 室 ， 这 条 语句 
将 不 对 这 条 记录 做 任何 修改 ， 新 的 标签 将 不 会 被 记 隶 。 同 时 ， 写 这 样 的 查询 语句 是 非常 楷 琐 耗 时 
的 ， 你 必须 要 重复 performance 这 个 字符 串 6 次 ! 


Multi-Column/anti/add-tag.sql 





UPDATE Bugs 
SET tagl = CASE 
WHEN ‘performance' IN (tag2, tag3) THEN tagl 


Q@ NULLIFO 在 SQL 中 是 一 个 标准 函数 ， 它 被 除 Informix 和 Ingres 以 外 的 所 有 三 商 支 持 。 
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ELSE COALESCE(tagl, "performance " ) END, 

tag2 = (CASE 
WHEN “performance” IN (tagl, tag3) THEN tag2 
ELSE COALESCE(tag2, 'performance') END, 

tag3 = CASE 
WHEN ‘performance' IN (tagl, tag2) THEN tag3 
ELSE COALESCE(tag3, 'performance') END 

WHERE bug_ 1d = 3456; 


8.2.3 ”确保 唯一 性 

你 可 能 并 不 希望 同一 个 值 出 现在 多 个 列 中 , 但 当 你 使 用 多 值 属性 这 个 反 模 式 时 , 数据库 并 不 
能 阻止 这 样 的 情况 发 生 。 换 而 言 之 ， 很 难 阻 止 如 下 语句 的 执行 : 

Multi-Column/anti/insert-duplicate.sql 


INSERT INTO Bugs (description, tagl, tag2, tag3) 
VALUES ('printing Ts slow', 'printing', 'performance', 'performance'); 


8.2.4 处 理 不 断 增长 的 值 集 
这 个 设计 的 另 一 个 弱点 在 于 三 列 可 能 并 不 够 用 。 要 保证 每 一 列 只 存储 一 个 值 ， 你 必须 定义 和 一 个 
Bug 能 支持 的 标签 最 大 数 一 样 多 的 列 。 在 定义 这 张 表 的 时 候 ， 你 能 预计 多 少 标签 数量 是 最 大 值 吗 ? 


有 一 个 策略 是 督 时 先 猜测 一 个 中 等 规模 的 量 并 在 日 后 必要 时 对 表 进 行 扩展 。 大 多 数 数 据 库 允许 
你 对 已 经 存在 的 表 进 行 重 构 ， 因 此 你 可 以 增加 Bug.tag4 这 个 列 ， 或 者 在 需要 时 增加 更 多 的 列 。 


Multi-Column/anti/alter-table.sql 





ALTER TABLE Bugs ADD COLUMN tag4 VARCHAR(C20); 

然而 ， 这 样 的 改变 在 以 下 三 点 上 的 开销 是 巨大 的 。 

D 重 构 一 张 已 经 存在 数据 的 表 可 能 会 导致 锁 住 整 张 表 ， 并 阻止 那些 并 发 客户 端的 访问 。 

D 有些 数 据 库 是 通过 定义 一 张 符合 需求 的 新 表 ， 然 后 将 现 有 数据 从 旧 表 中 复制 到 新 表 中 ， 
再 丢弃 旧 表 的 方式 来 实现 重 构 表 结构 的 。 如 果 需 要 重 构 的 表 有 很 多 数据 ， 那 转换 过 程 将 
韭 第 耗 时 。 

D 在 多 列 属性 中 增加 了 一 列 之 后 ,你 必须 检查 每 一 条 相关 的 SQL 语句 , 修改 这 些 SQL 语句 
以 文 持 这 些 新 加 入 的 列 。 


Multi-Column/anti/search-four-columns.sql 











SELECT * FROM Bugs 
WHERE tagl = performance 


OR tag2 = “performance 
OR tag3 = “performance 
OR tag4 = "performance "; -- you must add this new term 
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这 是 一 个 细致 且 费 时 的 开发 任务 。 如 来 你 漏 掉 了 任何 需要 修改 的 查询 语句 , 就 可 能 造成 难以 
定位 的 错误 。 


8.3 ”如 何 识 别 反 模式 


反 模 式 的 模式 

乱 穿 马 路 和 多 值 属 性 这 两 个 反 模 式 都 有 一 个 共同 的 主线 : 这 两 个 反 模 式 都 是 解决 同一 个 
目标 的 解决 方案 一 一 存储 一 个 具有 多 个 值 的 属性 。 

在 乱 穿 马路 的 例子 中 ， 我 们 解决 了 多 对 多 关系 的 存储 。 在 本 章 中 ， 我 们 将 看 到 如 何 
解决 一 对 多 的 关系 。 不 过 需要 明和 白 的 是 ， 这 两 个 反 模 式 和 两 种 数据 间 的 关系 有 时 是 可 以 
wl 


如 采用 户 界 面 上 或 者 项 目的 设计 文档 中 有 任何 属性 可 能 具有 多 个 值 , 并 且 这 个 值 的 数量 具有 
一 个 固定 的 最 大 值 ， 这 可 能 意味 着 你 使 用 了 多 值 属性 这 个 反 模 却 。 


诚然 ， 有 些 属 性 的 确 可 能 为 了 天 种 目的 ， 其 候选 值 的 数量 具有 节 大 值 的 限制 ,但 通 贡 情况 下 
征 疫 有 这 种 限制 的 。 如 朱 这 个 限制 是 任意 加 上 去 的 或 者 看 上 去 不 太 合理 , 那 可 能 就 是 因为 使 用 了 
这 个 反 模式 了。 

如 琳 你 昕 到 有 人 说 了 下 面 这 些 话 ， 那 也 是 一 个 线索 ， 提 醒 你 可 能 使 用 了 本 革 的 反 模 式 : 


D“ 我 们 应 该 支持 的 标签 数量 的 最 大 值 是 多 少 ? “ 
你 需要 决定 为 标签 这 样 的 多 值 属性 定义 多 少 列 。 

D 口 “我 要 怎么 才能 在 SQL 查询 中 同时 搜索 多 列 ?“ 
如 末 你 正在 多 列 中 查找 一 个 给 定 的 值 ， 这 是 一 个 线索 提示 你 应 该 存储 多 个 具有 同样 逻辑 
属性 的 列 。 


8.4 合理 使 用 反 模 式 


在 未 些 情况 下 , 一 个 属性 可 能 有 固定 数量 的 候选 值 , 并 且 对 应 的 存储 位 置 和 顺序 都 古 固 定 的 。 
比如 , 一 个 给 定 的 Bug 可 能 和 多 个 用 户 账 号 相关 , 但 每 个 关系 的 作用 都 是 唯一 的 : 一 个 是 报告 这 
个 Bug 的 用 户 ， 另 一 个 是 修复 这 个 Bug 的 开发 人 员 ， 男 一 个 是 验证 Bug 修复 状态 的 质量 控制 工 
程 师 。 即 使 这 几 列 里 存储 的 值 是 相似 的 ， 它 们 的 作用 以 及 实际 的 业务 逻辑 都 古 不 同 的 。 

在 Bugs 表 中 定义 三 个 不 同 的 列 来 存储 这 三 个 属性 是 合理 的 。 本 革 所 接 述 的 那些 缺 操 在 这 里 
无 关 紧 要 ， 因 为 基本 上 这 几 列 都 是 分 开 使 用 的 。 虽 然 有 时 仍旧 需要 对 所 有 这 三 列 数 据 进行 查询 ， 
比如 在 一 份 “ 每 个 Bug 都 涉及 哪些 人 ”的 报告 里 就 需要 这 么 做 。 既然 这 样 的 设计 能 够 使 得 大 部 分 
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的 查询 用 例 都 变 得 很 简单 ， 仅 在 有 限 数量 的 查询 用 例 上 表现 得 复杂 还 是 能 够 被 接受 的 。 

男 一 种 组 织 数 据 的 方式 是 创建 一 张 从 属 表 来 存储 Bugs 表 和 Accounts 表 之 间 的 关系 ， 同 时 
在 这 张 额外 的 表 中 增加 一 列 来 记录 一 个 关系 中 的 账号 所 表示 的 角色 。 然 而, 这 样 的 设计 可 能 会 导 
致 第 6 章 EAV 所 描述 的 一 些 问 题 。 


8.5 解决 方案 : 创建 从 属 表 


如 同 我 们 在 第 2 革 中 所 看 到 的 那样 ， 最 好 的 解决 方案 是 创建 一 张 从 属 表 , 仅 使 用 一 列 来 存储 
多 值 属 性 。 将 多 个 值 存 在 多 行 中 而 不 是 多 列 里 。 同 时 ， 在 从 属 表 中 定义 一 个 外 键 ， 将 这 个 值 和 
Bugs 表 中 的 主 记录 关联 起 来 。 





Multi-Column/soln/create-table.sql 


CREATE TABLE Tags ( 

bug_id BIGINT UNSIGNED NOT NULL 

tag VARCHAR(20), 

PRIMARY KEY (bug_id, tag), 

FOREIGN KEY (bug _ id) REFERENCES Bugs (bug_ id) 
2 


INSERT INTO Tags (bug_id, tag) 
VALUES (1234, 'crash'), (3456, 'printing'), (3456, performance " ) ; 


当 所 有 和 Bug 相关 的 标签 都 存储 于 一 列 中 时 ， 碍 找 和 一 个 给 定 标 签 相 关 的 所 有 Bug 就 变 得 
很 直接 了 。 

Multi-Column/soln/search.sql 

SELECT * FROM Bugs JOIN Tags USING (bug_1d) 

WHERE tag = "performance " ; 


即使 更 复杂 一 点 的 查询 ， 诸 如 “和 两 个 标签 相关 的 Bug”， 其 查询 代码 也 非常 倍 单 易 读 。 


Multi-Column/soln/search-two-tags.sql 


SELECT * FROM Bugs 
JOIN Tags AS tl1 USING (bug_ id) 
JOIN Tags AS t2 USING (bug_1d) 
WHERE tl1.tag = 'printing' AND t2.tag = “performance ; 


你 可 以 使 用 比 多 值 属性 反 模式 更 简单 的 方法 来 添加 或 移 除 数据 间 的 关系 一 一 只 要 人 简单 地 添 
加 或 者 删除 从 属 表 中 的 记录 就 行 了 。 不 再 需要 未 列 检查 是 否 有 空 列 可 以 添加 记录 了 了 。 











Multi-Column/soln/insert-delete.sqgl 
INSERT INTO Tags (bug_1id, tag) VALUES (1234, "save '); 
DELETE FROM Tags WHERE bug_ id = 1234 AND tag = ‘crash'; 
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主键 的 约束 能 够 保证 不 会 有 重复 记录 出 现 。 一 个 给 定 的 标签 只 能 和 一 个 给 定 的 Bug 关联 一 
次 ， 如 末 答 试 重复 插入 ，SQL 会 告诉 你 错误 。 


每 个 Bug 不 再 限制 只 能 打 三 个 标签 了 ， 不 像 在 Bugs 表 中 只 能 加 三 个 tagN 的 列 ， 现 在 只 
有 需要 就 可 以 一 直 加 新 的 标签 。 








将 具有 同样 意义 的 值 存在 同一 列 中 。 
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第 从 章 
第 @b 章 


元 数据 分 黎 


我 不 想 再 在 船上 看 到 这 些 东 西 。 即 使 要 付出 我 们 所 有 的 人 作为 代价 我 也 不 管 , 我 就 
是 要 它们 下 船 。 
磨 姆 斯 。 柯 克 


我 的 妻子 当 Java 及 Oracle PL/SQL 程序 员 已 经 好 儿 年 了 。 她 提供 了 一 个 案例 来 展示 什么 样 的 
数据 库 设计 能 使 得 工作 变 得 更 简单 。 

她 的 公司 的 销售 部 门 使 用 的 数据 库 中 有 一 张 叫 做 Customers 的 表 ， 记 录 了 和 客户 相关 的 信 
息 ， 比 如 客户 的 业务 类 型 ， 以 及 已 经 从 这 个 客户 那里 获得 了 多 少 收入 。 


Metadata-Tribbles/intro/create-table.sql 


3 


CREATE TABLE Customers ( 
customer_id NUMBER(9) PRIMARY KEY, 
contact_info VARCHAR(255), 
business_ type VARCHAR(20), 
revenue NUMBER(9, 2) 

) 


但 是 销售 部 门 需 要 按 年 来 划分 这 些 收 入 以 便于 跟踪 每 个 客户 的 动态 。 他 们 决定 增加 一 系列 的 
每 一 列 都 按照 年 份 来 命名 。 


Metadata-Tribbles/intro/alter-table.sql 


列 


3 


ALTER TABLE Customers ADD (revenue2002 NUMBER(9,2)); 
ALTER TABLE Customers ADD (revenue2003 NUMBER(9,2)); 
ALTER TABLE Customers ADD (revenue2004 NUMBER(9,2)); 


接着 他 们 输入 不 完整 的 数据 ， 只 包含 那些 他 们 有 兴趣 跟踪 的 客户 。 大 多 数 的 行 中 ,他 们 将 这 
些 收 入 字段 置 空 。 开 发 人 员 怀 疑 他 们 会 不 会 在 这 些 几 乎 用 不 到 的 列 中 存 些 别 的 数据 ? 

每 一 年 , 他 们 都 往 这 张 表 中 增加 一 个 新 列 。 有 一 个 专门 的 数据 库 管 理 员 负 责 维护 Oracle 的 表 
空间 。 因 此 ， 每 一 年 ， 他 们 都 需要 开 一 系列 的 会 议 ， 协调 数据 迁移 和 重新 组 织 表 空间 ， 并 且 增 加 
新 列 。 最 终 ， 他 们 浪费 了 一 堆 时 间 和 金钱 。 
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9.1 目标 : 支持 可 扩展 性 


随 着 数据 量 的 增长 ， 数 据 库 的 查询 性 能 也 会 随 之 下 降 。 即 使 查询 结 来 可 能 只 有 很 少 的 儿 千 
行 , 这 历 表 中 积 款 的 数据 也 可 能 使 得 整个 查询 的 性 能 变 得 极 差 。 即 使 使 用 了 索引 , 但 随 着 数据 的 
增长 ， 索 引 的 作用 变 得 非 第 有 限 。 


本 章 的 目标 就 是 要 优化 数据 库 的 结构 来 提升 查询 的 性 能 以 及 支持 表 的 平滑 扩展 。 
9.2 反 模 式 : 克隆 表 与 克隆 列 


在 “星际 迷航 ”中 ，tribbles 是 一 种 被 当做 完 物 饲养 的 小 巧 的 、 毛 茸 茸 的 动物 。tribbles 最 开 
始 非 第 地 吸引 人 ,但 很 快 它们 就 暴露 出 本 性 ， 开 始 了 无 市 制 的 瞪 列 ， 然 后 管理 泛滥 的 tribbles 成 
了 船上 的 一 个 严重 问题 。 


你 该 把 这 些 tribbles 放 哪 儿 ? 谁 该 为 这 些 tribbles 负责 ? 要 将 所 有 的 tribbles 都 收集 起 来 要 化 
多 长 时 间 ? 最 终 , 柯 克 船长 发 现 他 的 飞船 及 船员 们 无 法 正常 工作 , 他 不 得 不 下 令 将 “起 走 tribbles” 
作为 头等 大 事 来 处 理 。 

根据 经 验 ， 我 们 知道 查询 一 张 表 时 ， 其 性 能 只 和 这 张 表 中 数据 的 条 数 相关 ， 越 少 的 记录 ,， 查 
询 速 度 越 快 。 于 是 我 们 推导 出 一 个 常见 错误 的 结论 : 无 论 要 做 什么 ,我 们 必须 让 每 张 表 存 储 的 记 
录 尽 可 能 少 。 这 就 导致 了 本 莉 的 反 模式 的 两 种 表现 形式 。 


D 将 一 张 很 长 的 表 拆 分 成 多 张 较 小 的 表 ， 使 用 表 中 天 一 个 特定 的 数据 字段 来 给 这 些 拆 分 出 
来 的 表 命名 。 
D 将 一 个 列 拆 分 成 多 个 子 列 ， 使 用 别 的 列 中 的 不 同 值 给 拆 分 出 来 的 列 命名 。 
但 征 你 不 能 不 良 而 歼 : 为 了 要 达成 减少 每 张 表 记录 数 的 目的 ,你 不 得 不 创建 一 些 有 很 多 列 的 
表 , 或 者 创建 很 多 很 多 表 。 但 在 这 两 个 方案 中 ， 你 会 发 现 随 着 数据 量 的 增长 ,会 有 越 来 越 多 的 表 
或 者 列 ， 因 为 新 的 数据 迫使 你 创建 新 的 Schema 对 象 。 


























混淆 元 数据 和 数据 


请 注意 ， 通 过 将 年 份 追加 在 基本 表 名 之 后 ， 我 们 其 实 是 将 数据 和 元 数据 标识 合并 在 了 
一 起 ， 

这 和 我 们 早先 在 EAV 和 多 态 关 联 反 模式 中 看 到 的 混合 数据 和 元 数据 的 方式 正好 相反 。 
在 那些 案例 中 ， 我 们 将 元 数据 标识 ( 列 名 和 表 名 ) 当做 字符 事 存 储 。 

在 多 列 属性 和 元 数据 分 裂 模式 中 , 我 们 将 数据 的 值 存 储 在 列 名 或 者 表 名 中 。 如 果 你 使 用 
任何 这 些 反 模式 ， 你 只 会 得 到 更 多 的 问题 。 
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9.2.1 不 断 产 生 的 新 表 


要 将 数据 拆 分 到 不 同 的 表 中 ， 需 要 一 个 规则 来 定义 哪些 数据 属于 哪些 表 。 比 如 ， 可 以 根据 
date_reported 中 的 年 份 进行 拆 分 : 


Metadata-Tribbles/anti/create-tables.sql 


CREATE TABLE Bugs 2008 ( . . . ); 
CREATE TABLE Bugs 2009 ( . . . ); 
CREATE TABLE Bugs 2010 ( . . . ); 


由 于 要 将 数据 添加 进 数 据 库 ， 于 是 根据 要 添加 的 数据 的 值 选择 合适 的 表 就 成 了 你 的 贡 任 : 

Metadata-Tribbles/anti/insert.sql 

INSERT INTO Bugs 2010 (..., date reported, ...) VALUES (..., '2010-06-01'", ...); 

让 我 们 快 进 到 2011 年 1 月 1 日。 你 的 程序 在 添加 新 的 Bug 报告 时 不 断 的 报错 ， 因 为 你 忘记 
添加 一 张 叫做 Bugs_2011 的 新 表 。 

Metadata-Tribbles/anti/insert.sql 

INSERT INTO Bugs_ 2011 (..., date reported, ...) VALUES (..., '2011-02-20",...); 

这 意味 着 新 的 数据 可 能 会 需要 新 的 元 数据 对 象 。 这 在 SQL 的 设计 中 并 不 是 弟 见 的 数据 与 元 
数据 的 关系 。 


9.2.2 管理 数据 完整 性 


假设 你 的 老板 打算 计算 这 一 年 中 Bug 的 数量 , 但 他 得 到 的 数字 并 不 正确 。 检查 了 相关 数据 和 
程序 之 后 ， 你 发 现 有 一 部 分 2010 年 的 Bug 被 误 写 入 了 Bugs_2009 这 张 表 。 如 下 的 查询 语句 应 该 
每 次 部 返回 空 结 来 ， 如 琳 不 古 的 话 ， 那 么 就 有 拷 烦 了 了 : 

Metadata-Tribbles/anti/data-integrity.sql 


SELECT * FROM Bugs_ 2009 
WHERE date_ reported NOT BETWEEN ‘2009-01-01"' AND “2009- 了 12-3 了 1 


没有 任何 办 法 目 动 地 对 数据 和 相关 表 名 做 限制 ， 但 可 以 在 每 张 表 中 都 声明 一 个 CHECK 的 约 











Metadata-Tribbles/anti/check-constraint.sql 


CREATE TABLE Bugs 2009 ( 

-- other columns 

date_reported DATE CHECK (EXTRACT(YEAR FROM date_reported) = 2009) 
3) 


CREATE TABLE Bugs_ 2010 人 
-- other columns 
date_reported DATE CHECK (EXTRACT(YEAR FROM date_reported) = 2010) 
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注意 当 你 创建 Bugs_2011 时 要 记得 修改 CHECK 约束 里 的 值 。 如 东 你 犯错 了 ， 束 可 能 创建 出 
一 张 拒绝 接受 正确 值 的 表 。 


9.2.3 同步 数据 


某 一 天 ， 你 的 客户 支持 部 分 析 师 想 要 改变 Bug 的 日 期 。 在 数据 库 中 存储 的 日 期 是 2010-01-03 ， 
但 顾客 实际 是 在 一 周 以 前 , 即 2009-12-27, 使 用 传真 报告 的 错误 。 你 可 以 使 用 一 个 简单 的 UPDATE 
语句 来 修改 这 个 值 : 

Metadata-Tribbles/anti/anomaly.sql 


UPDATE Bugs_2010 
SET date_reported = '2009-12-27" 
WHERE bug_ id = 1234; 


但 这 个 修正 使 得 Bugs_2010 表 中 的 某 一 条 记录 变 成 了 无 效 记 录 。 你 需要 先 从 这 张 表 中 移 除 
这 条 记录 然后 插入 到 另 一 张 表 中 , 在 少数 情况 下 , 一 个 简单 的 UPDATE 语句 就 会 造成 这 样 的 异常 
状况 。 

Metadata-Tribbles/anti/synchronize.sql 


INSERT INTO Bugs_ 2009 (bug_1id, date reported, ...) 
SELECT bug_1id, date reported, ... 
FROM Bugs_2010 
WHERE bug_id = 1234; 


DELETE FROM Bugs_ 2010 WHERE bug_1id = 1234; 


9.2.4 确保 唯一 性 

需要 确保 所 有 被 分 割 出 来 的 表 中 的 主键 都 是 唯一 的 。 如 东 你 需要 从 一 张 表 中 移动 一 条 记录 到 
男 一 张 表 中 ， 需 要 保证 被 移动 记录 的 主键 值 不 会 和 目标 表 中 的 主键 记录 溃 突 。 

如 果 使 用 一 个 支持 序列 化 对 象 的 数据 库 , 那么 可 以 使 用 一 个 简单 的 序列 来 确保 主键 值 在 所 有 
的 分 割 表 中 都 是 唯一 的 。 对 于 那些 只 支持 单 表 ID 唯一 的 数据 库 产 品 来 说 ， 实 现 这 样 的 功能 变 得 
很 不 优雅 。 你 不 得 不 定义 一 张 额外 的 表 来 存储 产品 主键 的 值 : 

Metadata-Tribbles/anti/id-generator.sql 


CREATE TABLE BugsIdaenerator (bug_id SERIAL PRIMARY KEY); 


INSERT INTO BugsIdGenerator (bug_1d) VALUES (DEFAULT); 
ROLLBACK ; 


INSERT INTO Bugs 2010 (bug id, . . .) 
VALUES (LAST INSERT IDO), . . .); 
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9.2.5 ” 跨 表 查询 


不 可 避免 地 ， 你 的 老板 肯定 会 需要 查询 多 张 表 中 的 数据 。 比 如 ， 他 可 能 会 要 求 查 询 所 有 的 
Bug 总 数 ， 不 管 是 哪 一 年 报告 的 。 你 可 以 使 用 UNION 将 所 有 分 割 表 联合 起 来 得 到 一 个 重 构 过 的 
Bug 集合 并 将 其 作为 一 个 衍生 表 进 行 碍 询 : 


Metadata-Tribbles/anti/union.sqgl 





SELECT b.status, COUNT(*x) AS count_ per_status FROM 人 
SELECT * FROM Bugs 2008 
UNION 
SELECT * FROM Bugs 2009 
UNION 
SELECT * FROM Bugs_2010 ) AS pb 
GROUP BY b .status ; 


年 复 一 年 ， 你 创建 了 越 来 越 多 的 表 ， 比 如 Bugs_2011， 你 需要 不 断 地 更 新 程序 代码 来 引入 这 
些 新 创建 的 表 。 


9.2.6 ”同步 元 数据 


你 的 老板 要 求 你 在 表 中 增加 一 列 用 以 记录 解决 每 个 Bug 所 用 的 时 间 。 


Metadata-Tribbles/anti/alter-table.sql 





ALTER TABLE Bugs 2010 ADD COLUMN hours NUMERICC9,2); 

如 末 将 表 进 行 了 拆 分 ,那么 这 个 新 列 仅 仅 被 应 用 到 你 选择 的 那 张 表 上 。 其 他 所 有 的 表 都 不 包 
仿 这 个 新 列 。 

如 末 使 用 前 一 段 接 述 的 那个 UNION 碍 询 所 有 的 分 割 表 ,就 会 磁 到 一 个 新 问题 : 当 多 张 表 具有 
相同 的 列 时 才能 使 用 UNION。 如 霖 多 张 表 罗列 不 完全 相同 , 你 就 必须 指明 所 有 表 邦 同时 拥有 的 列 ， 
而 不 可 以 再 使 用 “*” 通 配 符 。 


9.2.7 管理 引用 完整 性 


如 东 一 个 关联 表 ， 比 如 Comments ?| 用 了 Bugs， 这 个 关联 表 就 不 能 声明 一 个 外 键 了 。 一 个 外 
键 必 须 指 定单 个 表 ， 但 在 这 个 案例 中 父 表 被 拆 分 成 很 多 个 表 。 
Metadata-Tribbles/anti/foreign-key.sql 


CREATE TABLE Comments ( 
comment_1id SERIAL PRIMARY KEY ， 
bug_1d BIGINT UNSIGNED NOT NULL ， 
FOREIGN KEY (bug_ 1d) REFERENCES Bugs_????(bug_1d) 





下 
分 割 表 即使 作为 一 张 关联 表 而 不 是 父 表 ,同样 可 能 了 | 起 一 些 问 题 。 比 如 ，Bugs .reported_by 
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引用 了 Accounts 表 。 如 果 你 想 要 查询 一 个 给 定 的 人 所 报告 的 所 有 Bug， 不 管 哪 一 年 的 ， 你 需要 
使 用 像 下 面 的 这 个 查询 : 
Metadata-Tribbles/anti/join-union.sql 


SELECT * FROM Accounts a 
JOIN ( 
SELECT * FROM Bugs_2008 
UNION ALL 
SELECT * FROM Bugs_2009 
UNION ALL 
SELECT * FROM Bugs_2010 
) t ON (a.account_ id = t.reported_by) 


9.2.8 ”标识 元 数据 分 裂 列 

列 也 可 能 根据 元 数据 分 裂 。 你 可 以 创建 一 个 含有 很 多 列 的 表 ， 这 些 列 按照 它们 的 类 别 扩展 ， 
就 像 我 们 在 本 革 最 开始 看 到 的 那个 故事 一 样 。 

我 们 的 Bug 数据 库 中 可 能 磁 到 的 另 一 个 事例 是 : 有 一 张 表 记录 了 项 目 指 标的 概要 信息 , 其 中 
的 每 一 列 存储 了 一 个 小 计 。 具 体 来 说 ， 在 如 下 这 张 表 中 ， 增 加 一 个 bugs_fixed_2011 列 只 是 时 


间 癌 题 : 


Metadata-Tribbles/anti/multi-column.sql 





CREATE TABLE ProjectHistory ( 
bugs_fixed 2008 INT, 
bugs_fixed 2009 INT, 
bugs_fixed 2010 INT 
2 


9.3 ”如 何 识别 反 模式 

如 下 的 描述 可 能 就 是 元 数据 分 裂 反 模式 在 你 的 数据 库 中 党 衍生 长 的 上 暗示。 

D “那么 我 们 需要 每 …… 创 建 一 张 表 〈 或 者 列 ) 。 

当 你 这 样 描 述 数据 库 时 ， 说 明 你 正 根 据 茶 一 列 的 值 的 范围 拆 分 表 。 

D“ 数 据 库 所 文 持 的 最 大 数量 的 表 (或 者 列 ) 是 多 少 ?“ 

如 果 你 的 设计 合理 ， 大 多 数 的 数据 库 可 以 处 理 的 表 和 列 的 数量 比 你 所 需要 的 多 得 多 。 如 果 
你 认为 你 的 数据 库 设 计 可 能 会 超过 了 好 大 值 ， 很 明显 应 该 重新 考虑 设计 了 。 

D “我 们 终于 发 现 为 什么 今 早 程序 添加 新 记录 失败 了 : 我 们 后 记 为 新 的 一 年 添加 新 表 了。 
这 和 古 元 数据 分 裂 的 普 过 结 采 。 当 新 的 数据 需要 新 的 数据 库 对 象 时 ， 你 需要 预先 定义 这 些 
对 象 ， 人 奋 则 就 要 接受 这 些 不 可 预计 的 错误 。 

D 我 要 怎样 同时 碍 询 很 多 张 表 ? 每 张 表 的 列 部 是 一 样 采 。 
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如 琳 你 需要 查询 很 多 结构 一 样 的 表 ， 就 应 该 将 数据 全 都 存在 一 个 表 中 ， 使 用 一 个 额外 的 
属性 列 来 分 组 数据 。 

D 我 要 怎样 将 表 名 作为 一 个 变量 传递 ? 我 在 查询 时 需要 根据 年 份 动 态 地 生成 这 些 表 名 。 
如 采 你 的 数据 都 在 一 张 表 里 ， 那 你 根本 不 需要 做 这 些 事 情 。 


9.4 合理 使 用 反 模式 

手动 分 割 表 的 一 个 合理 使 用 场景 是 归档 数据 一 将 历史 数据 从 日 前 使 用 的 数据 中 移 除 。 通 前 
在 过 期 数据 的 查询 变 得 非常 稀少 的 情况 下 ， 才 会 进行 如 此 的 操作 。 

如 琳 你 没有 同时 查询 当前 数据 和 历史 数据 的 需求 , 将 老 数 据 从 当前 活动 的 表 转 移 到 其 他 地 方 
古 很 合适 的 操作 。 

将 数据 归档 到 和 当前 表 结 构 相 兼容 的 新 表 中 ， 既 能 支持 偶尔 做 数据 分 析 时 的 查询 , 同时 也 能 
让 日 第 数据 查询 变 得 非 第 高 效 。 











WordPress.com 使 用 的 分 区 数据 库 设计 


在 2009 年 的 MySQL 大 会 上 , 我 和 Barry Abrahamson 一 起 吃饭 ,他 是 WordPress.com 的 
数据 库 架 构 师 ， 而 WordPress.com 是 一 个 很 流行 的 博客 服务 。 

Barry 说 他 开始 做 博客 主机 服务 时 ， 将 所 有 客户 的 数据 存在 一 个 数据 库 中 ， 毕 竞 每 个 博 
客站 点 的 数据 量 并 不 是 很 大 。 在 当时 ， 单 个 数据 库 便 于 管理 是 个 很 好 的 理由 。 

网 站 最 初 建立 的 时 期 ， 这 样 的 设计 工作 得 很 好 ， 但 很 快 就 发 展 成 大 规模 的 数据 库 操 作 。 
现在 他 们 在 300 台数 据 库 服务 器 上 存储 7 百 万 博客 数据 。 每 台 服 务 器 为 一 部 分 用 户 服务 。 

Barry 添加 新 的 服务 器 时 ， 对 存储 着 所 有 用 户 博 客 信息 的 单一 数据 库 进 行 拆 分 是 非常 痛 
著 的 事情 。 通 过 将 每 个 用 户 的 数据 分 开 存 储 到 单独 的 数据 库 中 ，Barry 发 现 将 一 个 用 户 的 数 
据 从 一 台 服 务 器 转移 到 另 一 台 服务 器 变 得 异 第 简单 。 由 于 用 户 总 是 在 不 断 地 流动 , 有 些 用 户 
的 博客 流量 非常 高 ， 而 另 一 些 用 户 的 博客 则 相对 比较 冷清 ，Barry 所 负责 的 不 断 调整 服务 器 
之 间 的 负载 均衡 工作 就 变 得 很 重要 。 

备份 并 恢复 一 个 中 等 规模 的 数据 库 比 操作 一 个 存储 着 TB 级 数据 的 数据 库 要 方便 得 多 。 
比如 ,如 果 一 个 用 户 打 电话 来 说 由 于 输入 了 错误 的 数据 ,他们 的 数据 现在 变 得 一 团 糟 ,，Barry 
该 怎么 恢复 这 个 用 户 的 数据 ， 如 果 所 有 用 户 的 数据 都 存 于 同一 个 巨大 的 数据 库 中 ? 

尽管 将 数据 对 象 模 型 化 并 将 整个 对 象 中 的 所 有 东西 映射 到 一 个 单独 的 数据 库 中 的 做 法 
没有 错 ， 但 合理 地 将 大 小 超过 临界 值 的 数据 库 拆 分 开 能 简化 数据 库 管 理 的 工作 。 
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9.5 解决 方案 : 分 区 及 标准 化 


当 一 张 表 的 数据 量变 得 非常 巨大 时 ,除了 手动 拆 分 这 张 表 , 还 有 更 好 的 办 法 来 提升 得 询 性 能 。 
这 些 方法 就 包括 了 水 平分 区 、 王 直 分 区 以 及 使 用 关联 表 。 
9.5.1 使 用 水 平分 区 

你 可 以 使 用 一 种 称 为 水 平分 区 或 者 分 片 的 数据 库 特 性 来 分 割 大 数据 量 的 表 , 同时 又 不 用 担心 
那些 分 割 表 所 市 来 的 缺陷 。 你 仅 需 要 定义 一 些 规则 来 拆 分 一 张 逻辑 表 , 数据库 会 为 你 管理 余下 的 
所 有 事情 。 物 理 上 来 说 ， 表 的 确 是 被 拆 分 了， 但 你 依旧 可 以 像 查询 单一 表 那 样 执行 SQL 查询 语 
人 句 。 

定义 每 个 表 拆 分 的 方式 古 非 第 灵活 的 。 比 如 ,使 用 MySQL5.1 所 文 持 的 分 区 特性 ， 你 可 以 在 
CREATE TABLE 语句 中 将 分 区 规则 作为 可 选 参数 。 


Metadata-Tribbles/soln/horiz-partition.sql 





CREATE TABLE Bugs ( 

bug_id SERIAL PRIMARY KEY, 

-- other columns 

date_reported DATE 

PARTITION BY HASH ( YEAR(date _ reported) ) 
PARTITIONS 4; 


上 例 中 分 割 数 据 库 的 方式 和 这 章 最 开始 讲 到 的 方法 类 似 ， 根 据 date_reported 列 里 的 年 份 
对 数据 进行 拆 分 。 然 而 ， 这 么 做 的 优势 在 于 ， 相 比 于 手动 拆 分 表 ， 你 永远 不 用 担心 数据 会 放 入 错 
误 的 分 割 表 中 , 即使 date_reported 列 的 值 更 新 了 。 而 且 , 你 不 此 引用 所 有 的 分 割 表 就 能 对 Bugs 
表 进 行 整体 的 查询 操作 。 

实际 存储 数据 的 物理 表 在 本 例 中 被 固定 设置 为 4 张 。 当 记录 的 年 份 跨度 超过 4 年 ， 某 一 个 分 
区 将 用 来 存储 多 于 一 年 的 数据 。 年 份 跨度 不 断 增 长 ， 这样 的 现象 也 会 不 断 重演 。 你 不 必 添 加 新 的 
分 区 ， 除 非 分 区 里 的 数据 量变 得 非常 巨大 ， 让 你 觉得 需要 重新 分 区 。 

分 区 在 SQL 标准 中 并 设 有 定义 ,因此 每 个 不 同 的 数据 库 实 现 这 一 功能 的 方式 都 是 非 标准 的 。 
对 应 的 术语 、 语 法 和 明确 的 特性 定义 在 不 同 的 数据 库 中 有 非常 大 的 区 别 。 然而， 某 些 形式 的 分 区 . 
如 今 已 经 被 很 大 一 部 分 数据 库 所 支持 了 。 


9.5.2 ”使 用 垂直 分 区 


鉴于 水 平分 区 起 和 根据 行 来 对 表 进 行 拆 分 的 , 垂直 分 区 藉 是 根据 询 来 对 表 进 行 拆 分 。 当 茶 些 列 
非 第 庞大 或 者 很 少 使 用 的 时 候 ， 对 表 进 行 按 列 拆 分 会 比较 有 优势 。 
BLOB 类 型 和 TEXT 类 型 的 列 的 大 小 是 可 变 的 ， 可 能 非常 大 。 为 了 提高 存储 和 查询 的 性 能 ， 有 


ws/ 
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些 数据 库 目 动 地 将 这 些 类 型 的 列 和 表 中 其 他 的 列 分 开 进 行 存 储 。 如 采 你 进行 一 个 不 包含 BLOB 或 
者 TEXT 类 型 条 查询 ， 就 可 以 更 高 效 地 获取 其 他 的 列 。 但 如 琳 使 用 一 个 通 配 付 “* 来 进行 个 询 ， 
数据 库 会 返回 这 张 表 中 所 包含 的 所 有 列 ， 包 括 那 些 类 型 为 BLOB 或 者 TEXT 的 列 。 

比如 说 ， 在 缺陷 数据 库 中 ， 我 们 可 能 会 在 Products 表 中 为 每 个 单独 的 产品 存储 一 份 安 疙 六 
件 。 这 种 文件 都 是 目 解压 的 ， 在 Windows 上 的 后 缀 通 第 为 .exe， 在 Mac 上 后 级 为 .dmg。 这 种 文 
件 通 第 都 很 大 ， 但 BLOB 类 型 的 列 可 以 存储 庞大 的 二 进 制 数 据 。 

从 多 辑 上 讲 ， 安 姜文 件 是 Products 表 的 一 个 属性 ， 但 在 绝 大 多 数 针 对 这 张 表 的 查询 中 ， 安 
钱 程 序 通 凋 古 不 需要 的 。 如 采 你 有 使 用 通配符 “* ”进行 查询 的 习惯 ， 那 么 将 如 此 大 的 文件 存储 
在 Products 表 中 ， 而 且 又 不 经 第 使 用 ， 很 容易 就 会 在 查询 时 遗漏 这 一 上 ， 从 而 造成 不 必要 的 性 
能 问题 。 

正确 的 做 法 是 将 BLOB 列 存在 男 一 张 表 中 ,和 Products 表 分 离 但 又 与 其 相关 联 ,。 让 这 张 BLOB 
表 的 主键 同时 作为 一 个 指向 Products 表 的 外 键 ， 用 以 确保 每 个 产品 最 多 有 一 条 与 之 对 应 的 安装 
包 记 录 。 


Metadata-Tribbles/soln/vert-partition.sqgl 

















CREATE TABLE ProductInstallers ( 
product_1d BIGINT UNSIGONED PRIMARY KEY ， 
installer_image BLOB, 
FOREIGCN KEY (product _ 1d) REFERENCES Products(product_1d) 
J 


之 前 的 例子 虽然 比较 极端 ， 但 它 确 实 展示 了 将 一 些 列 从 某 一 张 表 中 分 离 出 来 的 优势 。 比 如 ， 
在 MySQL 的 MyISAM 存储 引擎 中 ,对 一 个 所 有 行 的 大 小 部 是 固定 的 表 是 最 高 效 的 。VARCHAR 是 
一 个 可 变 长 数据 类 型 ， 因此， 只 要 表 中 出 现 一 个 这 样 类 型 的 字段 ， 那 就 无 法 侍 受 固定 长 度 的 查询 
速度 优势 。 如 果 你 将 所 有 可 变 长 字段 都 存储 在 分 离 的 表 中 ， 对 主 表 的 查询 效率 就 能 有 所 提高 〈 即 
使 只 有 一 点 所)。 


Metadata-Tribbles/soln/separate-fixed-length.sql 




















CREATE TABLE Bugs ( 


bug_id SERIAL PRIMARY KEY, -- fixed length data type 
summary CHAR(80), -- fixed length data type 
date_reported DATE ， -- fixed length data type 
reported by BIGINT UNSIGNED ， -- fixed length data type 
FOREICN KEY (reported by) REFERENCES Accounts(account_1d) 

2 

CREATE TABLE BugDescriptions ( 
bug_id BIGINT UNSIGNED PRIMARY KEY, 
description VARCHAR(1000), -- variable length data type 
resolution VARCHAR(1000) -- variable length data type 
FOREIGN KEY (bug_ 1d) REFERENCES Bugs (bug_1id) 


0 
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9.5.3 ”解决 元 数据 分 裂 列 





和 我 们 在 第 8 章 多 列 属 性 中 使 用 的 解决 方案 类 似 ， 解 决 元 数据 分 裂 的 改进 方案 就 是 创建 天 
联 表 。 


Metadata-Tribbles/soln/create-history-table.sql 


CREATE TABLE ProjectHistory ( 
project_1d BIGINT ， 
year SMALLINT ， 
bugs_fixed INT, 
PRIMARY KEY (project_1d, year), 


FOREIGN KEY (project_1d) REFERENCES Projects(project_1d) 
7 


使 用 每 行 一 个 项 目 、 每 一 列 记录 一 年 的 Bug 修复 数量 , 还 不 如 使 用 多 行 、 仅 用 一 列 记 孙 修复 
的 Bug 数量 。 如 琳 你 这 样 定义 表 ， 就 不 需要 为 随后 的 年 份 增加 新 列 , 随 着 时 间 的 增长 , 你 可 以 为 
每 个 项 目 存储 任意 数量 的 记录 。 


别 让 数据 党 衍 元 数据 。 
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10.0 乘 以 0.1 未 必 就 是 1.0。 


布 菜 思 。 克 尼 汉 


老板 要 求 你 根据 每 个 程序 员 修复 每 个 Bug 所 花费 的 时 间 , 来 计算 并 给 出 一 个 关于 项 目 开 发 时 
间 成 本 的 报表 。 每 个 在 Accounts 表 中 的 程序 员 都 有 不 同 的 时 薪 ， 因 此 你 统计 出 每 个 程序 员 花 在 
修复 每 个 Bug 上 的 时 间 ， 并 用 其 乘 以 对 应 的 时 新 。 


Rounding-Errors/intro/cost-per-bug.sql 





SELECT b.bug_ id, b.hours * a.hourly_rate AS cost per_bug 
FROM Bugs AS b 
JOIN Accounts AS a ON (b.assigned to = a.account 1d); 


要 实现 这 样 的 查询 功能 ， 你 需要 在 Bugs 和 Accounts 表 中 创建 新 的 列 。 这 些 新 的 列 都 应 访 
支持 浮 点 数 ， 因 为 你 需要 精确 地 统计 这 些 开销 。 你 决定 将 这 些 列 的 类 型 定义 为 FLOAT， 因 为 这 种 
类 型 支持 浮 点 数 。 

Rounding-Errors/intro/float-columns.sql 


ALTER TABLE Bugs ADD COLUMN hours FLOAT ; 


ALTER TABLE Accounts ADD COLUMN hourly_rate FLOAT ; 

通过 分 析 与 Bug 相关 的 工作 日 志 及 程序 员 的 时 薪 ， 你 更 新 了 这 些 新 列 ,， 测试 了 相关 数据 ， 然 
后 结束 了 当天 的 工作 。 

第 二 天 , 你 的 老板 拿 了 份 项 目 开销 报表 出 现在 你 的 办 公 室 里 。 这 些 数字 不 正确 ， 他 咬牙 切 
齿 地 说 道 : “我 目 己 手 动 算 过 一 次 ， 而 你 的 报告 是 错 的 一 一 虽然 很 小 ， 只 差 儿 美元 。 你 怎么 解释 
这 个 辣 题 ? ”你 开始 冒 冷 汗 ， 这 样 简 单 的 计算 哪里 会 出 问题 呢 ? 


10.1 目标 : 使 用 小 数 取 代 整 数 
整 型 是 一 个 很 有 用 的 数据 类 型 ， 但 只 能 存储 整数 ， 比 如 1、327 或 者 -19 之 类 的 。 它 不 能 表述 
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像 2.5 这 样 肖 后 数 。 如 二 数据 对 精度 要 求 很 高 ,你 需要 使 用 为 一 种 数据 类 型 来 取代 整 型 。 比 如 ， 
算 钱 的 时 候 通 兽 需 要 精确 到 小 数 点 后 两 位 ， 像 $19.95 这 样 。 


因此 ,本章 的 目标 就 是 存储 非 整数 类 型 的 数字 ,并 且 在 基本 运算 中 使 用 它们 。 还 有 另 一 个 目 
标 ， 运 算 的 结 末 必 须 正 确 。 当 然 ， 这 个 目标 是 最 基本 的 要 求 ， 实 现 它 征 理所当然 的 。 


10.2 反 模 式 : 使 用 FLOAT 类 型 


大 多 数 编程 语言 都 文 持 实数 类 型 ， 使 用 关键 字 float 或 者 double。SQL 也 使 用 相同 的 关键 
字 文 持 类 似 的 数据 类 型 。 很 多 程序 员 很 目 然 地 束 会 在 需要 使 用 浮 点 数 的 地 方 使 用 SQL FLOAT 类 
型 ， 因 为 他 们 习惯 于 使 用 float 类 型 编程 。 


SQL 中 的 FLOAT 类 型 ， 就 和 其 他 大 多 数 编程 语言 的 float 类 型 一 样 ， 根 据 IEEE 754 标准 使 
用 二 进 制 格 式 编码 实数 数据 ,你 需要 了 解 一 些 浮 点 数 的 定义 规 郊 ,才能 有 效 地 使 用 这 个 数据 类 型 。 


10.2.1 人 金 入 的 必要 性 


很 多 程序 员 并 不 清楚 浮 点 类 型 的 特性 : 并 不 是 所 有 在 十 进 制 中 描述 的 信息 都 能 使 用 二 进 制 存 
储 。 出 于 一 些 必要 的 因素 ， 浮 上 挟 数 通 第 会 舍 入 到 一 个 非 第 接近 的 值 。 


让 我 们 更 加 直观 地 了 解 这 个 取 整 操作 。 誉 例 来 说 ，13 用 一 个 无 限 循 环 的 十 进 制 可 以 表示 为 
0.333…， 真实 的 值 无 法 完整 地 写 出 来 ， 因为 需要 写 无 限 多 个 3。 小 数 点 后 数字 的 个 数 表 示 了 这 个 
数字 的 精确 度 ， 因 此 ， 无 限 循 环 地 写 下 3， 能 够 无 限 接近 于 1/3 的 精确 值 。 


折 中 的 办 法 是 限制 精度 ， 选 择 一 个 尽 可 能 接近 原始 值 的 数字 ， 比 如 0.333。 然 而 ， 这 也 意味 
着 这 个 数字 不 是 我 们 所 希望 的 那个 值 。 
二 十 却 十 寺 = 1.000 


3 3 3 
0.333 + 0.333 + 0.333 =0.999 


即使 所 高 了 精度 ， 仍 旧 不 能 将 这 三 个 近似 值 加 起 来 得 到 1.0。 这 是 使 用 有 限 精 度 的 数 表示 无 
限 小 数 时 的 必要 妥协 。 
1+ 寺 + = 1.000000 
0.333333 + 0.333333 + 0.333333 ”= 0.999999 
这 意味 着 ， 你 能 想到 的 某 些 合理 的 数 是 无 法 用 有 限 精度 表示 的 。 你 可 能 党 得 这 样 问 题 不 大 ， 
因为 你 确实 不 可 能 输入 一 个 无 限 小 数 ， 因 而 认为 ， 既然 实际 输入 的 值 是 有 限 精 度 的 ， 那么 也 应 该 
能 以 相同 的 精度 存储 ? 但 很 不 幸 ， 事 实 并 非 如 此 。 
IEEE 754 使 用 二 进 制 表示 浮 后 数 。 十 进 制 中 的 无 限 小 数 在 二 进 制 中 的 表达 方式 古 完 全 不 同 
的 。 然 而 一 些 十 进 制 有 限 小 数 ， 比 如 59.95， 在 二 进 制 中 却 需 要 表示 为 无 限 小 数 。FLOAT 类 型 无 
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法 表达 无 限 小 数 ， 因 而 ， 它 存储 了 二 进 制 表示 中 最 接近 59.95 的 值 ， 用 十 进 制 表示 等 于 
59.950000762939。 


有 些 值 磁 巧 在 两 种 表达 方式 中 能 达到 相同 的 精度 ， 从 理论 上 来 说 ， 如 琳 你 了 解 IEEE 754 标 
准 的 细 方 ， 就 可 以 预测 一 个 给 定 的 十 进 制 数 如 何以 二 进 制 形式 存储 。 但 在 实际 中 ,大 多 数 的 人 不 
会 天 心 每 一 个 他 们 正在 使 用 的 译 点 数 的 实际 精度 。 你 无 法 保证 一 个 FLOAT 类 型 的 列 中 存储 的 值 都 
征 符 合 精度 需求 的 ， 因 此 你 的 程序 应 该 认为 这 一 列 中 的 每 个 值 都 征 经 过 伟人 的 。 

有 些 数据 库 支 持 其 他 相 类 似 的 数据 类 型 DOUBLE PRECISION 和 REAL。 包 括 FLOAT 在 内 的 三 种 
数据 类 型 的 理论 精度 对 于 不 同 的 数据 库 实现 来 说 不 尽 相 同 , 但 它们 都 使 用 有 限 个 二 进 制 位 来 存储 
浮 挟 数 ， 因 此 它们 邦 有 着 相似 的 取 整 行为 。 





10.2.2 ”在 SQL 中 使 用 FLOAT 


有 些 数据 库 能 够 通过 某 种 方式 弥补 数据 的 不 精确 性 ， 输 出 我 们 所 期 望 的 值 。 


IEEE 754 标准 简介 


浮 点 数 二 进 制 表 达 的 规范 的 提案 可 以 追溯 到 1979 年 ,最 终 是 在 1985 年 定稿 。 如 分 已 经 
广泛 地 被 各 种 程序 、 编 程 语 言及 微 处 理 器 所 实现 。 

这 个 规范 使 用 三 段 编码 : 一 段 用 来 表示 一 个 值 的 小 数 部 分 ， 一 段 用 来 表示 其 偏 置 指数 ， 
剩余 的 另外 一 位 表示 符号 。 在 科学 计算 中 , IEEE 754 标准 的 使 用 非常 广泛 , 它 同 时 能 用 来 描 
述 极 大 值 以 及 极 小 值 。 这 个 标准 不 仅仅 支持 实数 ， 其 取 值 范围 比 固定 大 小 的 整 型 还 要 大 。 双 
精度 浮 点 类 型 所 支持 的 取 值 范围 更 大 。 因 此 ,对 于 科学 计算 类 的 程序 来 说 , 这 几 个 类 型 是 非 
常 有 用 的 。 

但 是 大 多 数 使 用 浮 点 数 的 场合 是 用 来 算 钱 。 对 于 钱 的 计算 来 说 并 不 需要 使 用 IEEE 754 
标准 。 因 为 本 章 所 介绍 的 刻度 化 十 进 制 格 式 能 非常 简单 且 精 确 地 处 理 与 钱 相 关 的 操作 。 

参考 维基 百科 的 文章 (http:/en.wikipedia.org/wikiIEEE 754-1985) 或 者 David Goldberg 
的 文章 “What Every Computer Scientist Should Know About Floating-Point Arithmetic ” [Gol91] 
能 更 好 地 了 解 这 个 标准 。 

Goldberg 的 文章 可 以 查看 http:/www.vallidlab.com/goldberg/paperpdf。 


Rounding-Errors/anti/select-rate.sql 


SELECT hourly_rate FROM Accounts WHERE account_ 1d = 123; 


Returns: 59.95 
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但 FLOAT 类 型 的 列 中 实际 存储 的 数据 可 能 并 不 完全 等 于 它 的 值 。 如 采 将 这 个 值 扩大 十 亿 倍 ， 
就 能 看 到 其 中 的 区 别 : 
Rounding-Errors/anti/ magnify-rate.sql 


SELECT hourly_rate * 1000000000 FROM Accounts WHERE account 1d = 123; 


Returns: 59950000762.939 

你 可 能 希望 上 面 那 个 扩大 的 查询 返回 的 结果 应 该 为 59950000000.000。 这 说 明 IEEE 754 标准 
的 二 进 制 模式 将 59.95 转化 成 了 一 个 可 以 用 有 限 精 度 表示 的 值 。 在 这 个 例子 中 ， 取 整 后 的 值 与 原 
值 的 误差 为 千 万 分 之 一 以 内 ， 对 于 大 多 数 的 运算 来 说 已 经 足够 精确 了 。 

然而 ,对 于 某 些 运算 来 说 这 样 的 误差 还 是 不 可 容忍 的 的 。 最 简单 的 例子 就 是 用 FLOAT 进行 比 
较 操 作 。 


Rounding-Errors/anti/inexact.sql 








SELECT * FROM Accounts WHERE hourly_rate = 59.95; 


Result: empty set; no rows match. 


我 们 知道 在 hourly_rate 列 中 实际 存储 的 值 比 59.95 要 稍微 天 一 点 点 。 即 使 你 给 account_id 
为 123 的 hourly_rate 赋值 为 59.95， 之 前 的 那个 查询 也 会 以 失败 而 告终 。 


通常 的 变通 方案 是 将 浮 点 数 视 作 “近似 相等 *， 即 两 个 值 之 间 的 差 值 足够 小 就 认为 它们 相等 。 
我 们 将 两 个 值 相 减 ， 并 使 用 SQL 中 的 ABSO 〇 函数 取 其 绝对 值 。 如 琳 结 霖 为 0， 则 表示 两 个 数 绝对 
相等 。 如 来 结 末 足 够 小 ， 那 我 们 就 认为 这 两 个 数 古 近似 相等 的 。 下 面 的 这 个 查询 能 够 返回 正确 的 
结 末 : 

Rounding-Errors/anti/threshold.sql 

SELECT * FROM Accounts WHERE ABS(hourly_rate - 59.95) < 0.000001; 
然而 ， 即 使 是 如 此 细小 的 差 值 在 对 精度 要 求 较 高 的 比较 中 也 会 失败 : 


Rounding-Errors/anti/threshold.sql 





SELECT * FROM Accounts WHERE ABS(hourly _ rate - 59.95) < 0.0000001; 
由 于 十 进 制 数 和 取 整 后 的 二 进 制 数 的 绝对 值 不 相同 ， 我 们 需要 合适 的 国 值 。 

另 一 个 由 于 使 用 非 精 确 的 FLOAT 造成 误差 的 情况 ,是 使 用 合计 国 数 计算 很 多 值 的 时 候 。 比 如 ， 
如 条 使 用 SUMGO 国 数 计算 一 列 中 的 所 有 值 ， 那 最 终 得 到 的 总 和 会 受到 这 一 列 中 所 有 非 精 确 值 的 影 
叮 。 








Rounding-Errors/anti/cumulative.sql 


SELECT SUM(C b.hours * a.hourly_rate ) AS project _ cost 
FROM Bugs AS b 
JOIN Accounts AS a ON (b.assigned to = a.account_ 1d); 
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非 精 确 浮 点 数 所 积 素 的 影响 对 于 求 和 之 外 的 合计 运算 来 说 会 更 大 。 虽 然 误差 看 起 来 非常 小 ， 
但 其 素 加 起 来 的 效 末 不 可 忽 秽 。 比 如 ， 如 采 你 用 1 精确 地 乘 以 1.0， 那 无 论 执行 多 少 次 ， 结 未 总 
契 1。 人 然而 ,如 采 这 个 乘 数 因 于 实际 上 十 0.999,， 结 条 束 完全 不 同 。 如 采 你 用 1 乘 以 0.999 一 千 次 ， 
你 得 到 的 结 末 将 约 等 于 0.3677。 这 梓 的 操作 执行 次 数 越 多 ， 误 震 就 越 大 。 

实际 中 需要 连续 多 次 进行 译 点 数 乘法 运算 的 例子 , 是 在 金融 项 目 中 计算 复 利 。 使 用 非 精 确 浮 
尽数 所 造成 的 误 痉 看 起 来 很 小 ， 但 会 不 断 社 加 。 因 此 ， 在 金融 项 目 中 使 用 精确 值 是 非 第 重要 的 。 


10.3 如何 识别 反 模 式 
实际 上 ， 任 何 使 用 FLOAT、REAL 或 者 DOUBLE PRECISION 类 型 的 设计 都 有 可 能 是 反 模 式 。 大 
多 数 应 用 程序 使 用 的 序 点 数 的 取 值 了 艺 围 并 不 需要 达到 IEEE 754 标准 所 定义 的 最 大 /最 小 区 间 。 
似乎 在 SQL 中 使 用 FLOAT 类 型 是 很 自然 的 事情 ， 毕 竞 它 和 大 多 数 编程 语言 中 的 浮 点 类 型 所 
使 用 的 关键 字 是 一 样 的 。 但 对 于 浮 点 数 的 存储 ， 我 们 还 有 更 好 的 选择 。 


10.4 ”合理 使 用 反 模 式 

当 你 需要 存储 的 数据 的 取 值 范围 很 大 ， 大 于 INTEGER 和 NUMERIC 这 两 个 类 型 所 支持 的 范围 
时 ，FLOAT 就 是 你 的 选择 。 科 学 计算 类 的 程序 就 是 FLOAT 通常 的 应 用 场合 。 

Oracle 使 用 FLOAT 类 型 表示 的 是 一 个 精确 值 ， 而 BINARY_FLOAT 类 型 是 一 个 非 精 确 值 ， 使 用 
的 是 IEEE 754 标准 编码 。 


10.5 ”解决 方案 : 使 用 NUMERIC 类 型 


使 用 SQL 中 的 NUMERIC 或 DECIMAL 类 型 来 代替 FLOAT 及 与 其 类 似 的 数据 类 型 进行 固定 精度 
的 小 数 存 储 。 


Rounding-Errors/soln/numeric-columns.sdl 














ALTER TABLE Bugs ADD COLUMN hours NUMERIC(9,2); 


ALTER TABLE Accounts ADD COLUMN hourly_rate NUMERIC(C9 ,2 ) ; 

这 些 数据 类 型 精确 地 根据 你 定义 这 一 列 时 指定 的 精度 来 存储 数据 。 通 过 类 似 于 指定 VARCHAR 
的 长 度 的 方式 ， 将 精度 作为 类 型 参数 来 定义 列 的 类 型 。 其 精度 所 指 的 是 ,在 这 一 列 中 的 每 个 值 最 
多 所 能 包含 的 有 效 数字 的 个 数 。 精 度 为 9 意味 着 你 可 以 存储 123456789， 而 1234567890 则 为 非 
法 值 。 














@ 在 一 些 三 商 的 数据 库 中 ， 列 的 大 小 内 部 取 整 到 最 接近 的 字 市 、 字 或 是 双 字 ， 所 以 NUMERIC 列 的 最 大 值 可 能 有 比 你 
规定 的 要 多 的 数位 。 
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你 也 可 以 使 用 该 类 型 的 第 二 参数 来 指定 其 刻度 。 这 里 的 刻度 即 指 小 数 点 后 的 位 数 。 小 数 部 分 
的 数字 也 算 在 其 有 效 位 中 ， 因 此 ， 精 度 9 刻度 2 意味 着 可 以 存储 1234567.89， 而 12345678.91 或 
者 123456.789 都 古 非 法 值 。 


应 用 在 茶 一 列 上 的 精度 和 刻度 会 影响 到 这 一 列 中 的 每 一 行 记 录 ,， 也 就 是 说 , 你 无 法 在 菜 些 行 
上 存储 刻度 为 2 的 记录 ， 同 时 又 在 另 一 些 行 上 存储 刻度 为 4 的 记录 。 在 SQL 中 一 列 的 数据 类 型 
对 于 这 一 列 中 的 每 条 记录 都 是 通用 的 《就 如 同 定 义 了 VARCHAR(20) 意 味 着 每 一 行 都 只 能 存储 最 大 
长 度 为 20 的 字符 串 )。 

NUMERIC 和 DECIMAL 的 优势 之 处 在 于 , 它们 不 会 像 FLOAT 类 型 那样 对 存储 的 有 理 数 进行 舍 入 
操作 。 假 设 你 输入 59.95, 就 可 以 确信 实际 存储 的 数据 就 是 59.95。 当 使 用 存储 的 数据 与 原始 数据 
59.95 进行 比较 时 ， 必 然 返 回 两 者 相等 。 


Rounding-Errors/soln/exacf.sql 








SELECT hourly_rate FROM Accounts WHERE hourly_rate = 59.95; 

Returns: 59.95 
同样 地 ， 如 于 你 按 比 例 将 值 扩展 十 亿 倍 ， 就 可 以 得 到 所 期 诗 的 值 : 

Rounding-Errors/soln/magnify-rate-exaci.sdql 

SELECT hourly_rate * 1000000000 FROM Accounts WHERE hourly_rate = 59.95; 

Returns: 59950000000 

NUMERIC 和 DECIMAL 这 两 个 类 型 的 行为 是 一 样 的 ,两 者 没有 任何 区 别 。DEC 也 是 DECIMAL 的 

你 仍旧 无 法 存储 无 限 精度 的 数据 ， 诸 如 1/3， 但 至 少 我 们 对 十 进 制 数 的 这 些 约束 有 了 更 深 的 
了 解 。 

如 果 你 需要 精确 地 表示 十 进 制 数 , 使 用 NUMERIC 类 型 。FLOAT 类 型 无 法 表示 很 多 十进制 的 有 
理 数 ， 因 此 它们 应 该 当成 非 精 确 值 来 处 理 。 











尽 可 能 不 要 使 用 浮 点 数 。 
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当 变 量 有 限 且 可 以 一 一 列举 ， 当 变量 间 的 组 合 是 不 重复 且 清 晰 的 ， 那 就 存在 科学 。 
保罗 。 瓦 勒 里 


在 个 人 信息 表 中 ， 称 呼 (salutation) 列 可 以 只 有 有 限 的 儿 个 候选 值 。 基 本 上 你 只 需要 支持 
Mr.、Mrs.、Ms.、Dr. 以 及 Rev.， 这些 称 谓 几 平 履 产 了 所 有 人 。 你 可 以 在 声明 这 个 列 的 时 候 使 用 数 
据 类 型 或 者 约束 来 指定 这 些 候选 值 ， 因 此 不 会 有 人 往 salutation 列 中 加 入 无 效 值 。 

31-Flavors/intro/create-table.sql 


CREATE TABLE PersonalContacts ( 
-- other columns 
salutation VARCHAR(4 ) 
CHECK (salutation IN (C'Mr.', 'Mrs.', 'Ms.', 'Dr.', 'Rev. ))， 
2 


这 一 列 基本 上 可 以 保持 稳定 ， 因 为 你 不 需要 文 持 别 的 称呼 了 ， 是 这 样 的 吗 ? 

遗憾 的 是 ， 你 的 老板 告诉 你 公司 正 准 备 在 法 国 创建 一 家 分 公司 。 你 需要 文 持 M.、Mme. 以 及 
Mlle. 这 些 称 呼 。 你 的 任务 就 是 让 你 的 联系 人 表 能 接受 这 些 值 。 这 是 一 项 很 精细 的 任务 , 不 中 断 表 
的 读 写 操作 可 能 无 法 完成 这 一 任务 。 

你 同时 还 得 壮 虑 ， 你 的 老板 提 到 了 下 月 可 能 会 在 巴西 建立 办 事 处 的 事情 。 


11.1 目标 : 限定 列 的 有 效 值 


将 一 列 的 有 效 字 上 段 值 约束 在 一 个 固定 的 集合 内 是 非常 有 用 处 的 。 如 末 我 们 可 以 确保 一 列 中 永 
远 不 会 包含 无 效 字 段 ， 那 对 于 使 用 方 来 说 ， 逻 辑 会 变 得 非常 简单 。 

比如 在 Bugs 表 中 ，status 列 标记 了 一 个 给 定 的 Bug 是 NEW、IN PROGRESS、FIXED 等 状 
态 。 这 些 值 的 意义 与 在 项 目 中 如 何 省 理 这 些 Bug 有 关 ， 但 我 们 现在 所 关心 的 是 status 这 一 列 中 
的 值 必 须 限定 在 所 列 出 来 的 这 儿 个 值 中 。 
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理想 情况 下 ， 我 们 希望 数据 库 能 够 拒绝 无 效 值 的 输入 : 
31-Flavors/obj/insert-invalid.sqgl 


INSERT INTO Bugs (status) VALUES ('NEW'); -- OK 


INSERT INTO Bugs (status) VALUES ('BANANA'); -- Error! 


” 芭 斯 罗 缤 的 31 种 冰激凌 


从 1953 年 开始 ， 著名 的 冰激凌 连锁 店 芭 斯 罗 缤 (Baskin-Robbins) 在 一 个 月 中 每 天 提供 
一 种 不 同 的 口味 。 他 们 使 用 “31 Flavors” 这 个 口号 很 多 年 。 

如 今 ，60 多 年 后 ， 芭 斯 罗 绽 提供 21 种 经 典 口味 ，12 种 季节 性 口味 ，16 种 地 区 性 口味 ， 
另外 还 有 各 种 各 样 的 Bright Choices 和 Flavors of the Month。 以 前 共 斯 罗 缤 的 冰激凌 口味 根 
据 他 们 的 招牌 是 固定 不 变 的 ， 但 他 们 后 来 对 此 做 了 扩展 ,可 配置 ， 可 变化 。 在 你 设计 数据 库 
时 ， 也 可 以 使 用 同样 的 方式 实际 上 ， 你 确实 应 该 使 用 这 种 方式 。 





11.2 反 模 式 : 在 列 定 义 上 指定 可 选 值 


很 多 数据 库 设 计 人 员 趋 癌 于 在 定义 列 的 时 候 指定 所 有 可 选 的 有 效 数 据 。 列 的 定义 是 元 数据 的 
一 部 分 ， 也 就 是 表 结 构 定 义 的 一 部 分 。 

比如 说 ,你 可 以 对 某 一 列 定 义 一 个 检查 约束 项 。 这 个 约束 不 允许 往 列 中 插入 或 者 更 新 任何 会 
导致 约束 失败 的 值 。 

31-Flavors/anti/create-table-check.sql 


CREATE TABLE Bugs ( 
-- other columns 
status VARCHAR(20) CHECK (status IN ('NEW"', IN PROGRESS', 'FIXED')) 


J 
MySQL 支持 使 用 ENUM 关键 字 来 约束 一 列 的 取 值 范围 ， 但 这 并 不 是 一 个 标准 类 型 。 


31-Flavors/anti/create-table-enum.sql 








CREATE TABLE Bugs ( 
-- other columns 
status ENUM(C'NEW', 'IN PROGRESS', 'FIXED'), 


2 

在 MySQL 的 实现 中 ， 即 使 你 使 用 字符 串 表 示 ENUM 里 的 值 ， 但 实际 存储 在 列 中 的 数据 是 这 
些 值 在 定义 时 的 序数 。 因 此 ， 这 列 的 数据 是 字 市 对 齐 的 ， 当 你 进行 一 次 排序 查询 时 ,结果 是 按照 
实际 存储 的 序号 进行 排序 的 ， 而 韭 对 应 字符 串 的 字母 序 。 这 可 能 并 不 是 你 所 希望 的 。 


其 他 的 解决 方案 包含 了 域 以 及 用 户 自 定义 类 型 (UDT)。 你 可 以 使 用 这 些 方法 来 约束 某 一 列 
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门 
pe 


能 接受 一 个 特定 集合 中 的 数据 , 并且 能 很 方便 地 将 这 个 约束 应 用 到 整个 域 上 。 但 这 些 特 性 并 没 
有 得 到 大 多 数 关 系数 据 库 系统 的 支持 。 


最 后 一 个 办 法 ， 你 还 可 以 编写 一 个 触发 颖 ， 当 修改 指定 列 的 内 容 时 触发 ， 将 被 修改 的 值 和 人 允 
许 输 入 的 值 进 行 匹 配 ， 如 来 不 符合 则 产生 一 个 错误 中 断 操作 。 


所 有 的 这 些 解决 方案 都 有 一 定 的 缺陷 。 下 面 就 来 一 一 描述 这 些 问 题 。 
11.2.1 ”中间 的 是 哪个 


假设 你 正在 为 Bug 跟踪 服务 开发 一 个 用 户 界 面 程序 ， 它 允许 用 户 编 辑 Bug 报告 。 为 了 让 界 
面 能 够 引导 用 户 选 择 一 个 合适 的 status 值 ， 你 选择 使 用 一 个 包含 所 有 可 选 值 的 下 拉 汪 单 。 你 要 
如 何 查 询 数 据 库 来 获取 当前 可 以 输入 到 status 列 中 值 的 枚 举 列 表 呢 ? 

你 的 第 一 反应 可 能 是 查询 当前 列 中 所 有 正在 被 使 用 的 值 ， 使 用 如 下 这 个 简单 的 查询 : 


31-Flavors/anti/distinct.sql 














SELECT DISTINCT status FROM Bugs; 

然而 ， 如 琳 所 有 的 Bug 都 是 新 建 的 ， 上 面 这 个 查询 只 会 返回 NEW。 如 琳 你 使 用 这 样 的 结果 
集 来 填充 用 户 界面 中 的 控件 , 这 就 变 成 了 一 个 先 有 鸡 还 是 先 有 和 蛋 的 问题 : 你 无 法 将 一 个 Bug 的 状 
态 改变 为 当前 使 用 状态 以 外 的 值 。 

要 获得 所 有 人 允许 输入 的 status 候选 值 ， 你 需要 得 询 这 一 列 的 元 数据 。 大 多 数 SQL 数据 库 支 
持 使 用 系统 视图 来 完成 这 种 得 询 需求 ， 但 是 使 用 起 来 是 很 复杂 的 。 比 如 ， 如 朱 你 使 用 MySQL 的 
ENUM 类 型 ， 可 以 使 用 如 下 的 查询 语句 来 查询 INFORMATION_SCHEMA 系统 视图 : 


31-Flavors/anti/information-schema.sql 


SELECT column_type 
FROM information_ schema.columns 


WHERE table schema = ‘bugtracker_schema 
AND table name = 'bugs' 
AND column name = “Status '; 


你 无 法 简单 地 从 INFORMATION_SCHEMA 的 结 末 集 中 获取 单独 的 枚 举 值 ， 而 契 得 到 了 一 个 包含 
Check 约束 或 者 ENUM 类 型 声明 的 字符 串 。 比 如 ， 在 MySQL 中 ， 上 述 查 询 就 会 返回 一 个 类 型 为 
LONGTEXT、 内 容 为 ENUM(NEW', IN PROGRESS', FIXED) 的 结果 ， 结 果 中 包含 了 括号 、 逐 号 及 
单 引 号 ,你 必须 额外 编写 一 段 程序 代码 来 解析 这 个 字符 串 , 将 每 个 引号 对 中 的 数据 独立 抽取 出 来 ， 
才能 在 控件 中 使 用 。 

对 于 獒 取 Check 约束 、 域 或 者 UDT 信息 的 查询 来 说 ， 过 程 会 更 加 复杂 。 大 多 数 开 发 人 员 非 
前 勇敢 地 在 程序 中 手动 维护 这 样 一 个 列表 。 当 程序 数据 和 数据 库 的 元 数据 不 同步 时 , 程序 很 容易 
就 届 涡 了 。 
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11.2.2 添加 新 口味 


最 常见 的 改变 就 是 添加 或 删除 一 个 候选 值 。 没 有 什么 语法 支持 从 ENUM 或 者 Check 约束 中 添 
加 或 删除 一 个 值 ， 你 只 能 使 用 一 个 新 的 集合 重新 定义 这 一 列 。 如 下 是 一 个 更 新 MySQL ENUM 的 例 
子 ， 目 的 是 将 DUPLICATE 添加 到 status 的 候选 值 列表 中 : 


31-Flavors/anti/add-enum-value.sql 


ALTER TABLE Bugs MODIFY COLUMN status 
ENUMC NEWN ， IN PROGRESS', 'FIXED', ‘DUPLICATE '); 


你 先 要 知道 之 前 的 定义 允许 NEW、IN PROGRESS 和 FIXED， 这 样 问 题 义 绕 回 到 了 之 前 如 
何 获 取 这 些 值 上 了 。 

一 些 数据 库 要 求 只 有 表 为 空 表 时 才能 改变 荣 一 列 的 定义 。 你 可 能 需要 先 转 存 这 张 表 中 的 数 
据 ， 清空 这 张 表 ,重新 定义 它 ， 然 后 再 将 数据 重新 村 入 ， 这 个 过 程 会 使 得 这 张 表 处 于 无 法 访问 的 
状态 。 这 种 工作 非常 第 见 ， 以 致 它 已 经 有 了 个 名 字 : EIL， 和 表示 “抽取 、 转 换 和 加 载 。 有 一 些 
数据 库 支 持 使 用 ALTER TABLE 指令 重新 构建 一 张 使 用 中 的 表 , 但 这 个 操作 依旧 是 非常 复杂 的 ， 并 
且 其 开销 也 很 巨大 。 

作为 一 个 策略 问题 ,修改 元 数据 一 一 童 味 着 修改 表 或 列 的 定义 一 一 应 该 是 极 少 的 ,并 且 需 要 
大 量 的 测试 以 你 证 质量 。 如 采 你 需要 修改 元 数据 来 对 一 个 ENUM 定义 进行 添加 或 删除 操作 ， 束 不 
得 不 投入 大 量 的 测试 时 间或 者 让 很 多 工程 师 关 注 这 个 修改 所 帘 来 的 影响 。 人 否则 ,这样 的 修改 就 会 
导致 额外 的 风险 ， 让 你 的 程序 变 得 不 稳定 。 


11.2.3 老 的 口味 永 不 消失 


如 采 你 打算 废弃 一 个 选项 ， 你 可 能 会 为 老 数据 而 烦 恼 。 比 如 ， 将 质量 控制 流程 中 的 FIXED 
状态 拆 分 成 CODE COMPLETE 和 VERIFIED 两 个 状态 : 
































31-Flavors/anti/remove-enum-value.sqgl 


ALTER TABLE Bugs MODIFY COLUMN status 
ENUM(C 'NEW", IN PROGRESS', CODFE COMPLETE ， ‘VERIFIED'); 


如 末 移 除 FIXED， 你 要 如 何 处 理 已 经 是 FIXED 状态 的 数据 ? 将 所 有 的 FIXED 状态 修改 为 
VERIFIED? 还 是 将 其 设 为 空 或 者 默认 值 ? 


你 可 能 不 得 不 保留 这 个 老 数据 已 使 用 的 废弃 选项 ,但 又 要 如 何在 用 户 界 面 上 区 分 废弃 的 和 可 
用 的 Bug 状态 候选 值 呢 ? 


11.2.4 ”可 移植 性 低下 
Check 约束 、 域 和 UDT 在 各 种 数据 库 中 的 支持 形式 并 不 统一 。ENUM 是 MySQL 独 有 的 特性 。 
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每 一 个 数据 库 对 于 列 的 候选 值 列表 长 度 的 定义 都 不 尽 相 同 。 触发 如 的 语法 也 区 别 很 大 。 这些 羌 异 
使 得 你 在 需要 文 持 多 种 数据 库 时 很 难 选择 一 个 合适 的 解决 方案 。 


11.3 如何 识 别 反 模式 


使 用 ENUM 或 者 Check 约 束 时 遇 到 的 问题 可 能 是 候选 值 集合 并 不 国定。 如 采 你 正 汰 虑 使 用 ENUM， 
首先 问 一 下 自己， 候选 值 的 集合 征 否 需要 改变 或 者 契合 可 能 改变 。 如 林 答 案 为 “ 征 ， 那 使 用 
ENUM 就 不 见得 是 好 主意 。 

“我 们 不 得 不 将 数据 库 下 线 ， 才 能 在 程序 末 单 中 加 入 一 个 新 的 选项 。 如 末 一 切 顺利 ， 整 个 

过 程 将 不 超过 3 小 时 。 
这 说 明 候选 值 的 集合 是 直接 写 和 人 列 的 定义 中 的 。 然 而 , 完成 这 样 的 升级 操作 理应 不 停止 服务 。 

D “这 个 status 列 可 以 在 入 这 些 候 选 值 中 的 一 个 。 我 们 不 应 该 改变 这 个 候选 值 列表 。 

不 应 该 ”是 一 个 很 模 校 两 可 的 说 法 ， 它 和 “不 能 ”是 完全 不 同 的 意思 。 

D “程序 代码 中 关于 业务 规则 的 选项 列表 和 数据 库 中 的 值 又 不 同步 了 ! 

这 就 是 在 两 个 地 方 维护 同一 套数 据 的 风险 。 


11.4 ”合理 使 用 反 模 式 
就 像 我 们 讨论 的 那样 ，ENUM 在 候选 值 几 乎 不 变 的 情况 下 所 造成 的 问题 很 少 。 通 过 查询 获取 
元 数据 依旧 是 很 麻烦 的 ， 但 是 你 可 以 在 程序 代码 中 维护 一 份 列表 而 不 用 担心 不 同步 的 问题 。 


ENUM 在 存储 没有 业务 逻辑 且 不 需要 改变 的 候选 值 时 是 非常 方便 的 。 比如 存储 一 对 二 选 一 旦 相 
互 对 立 的 值 ，LEFT/RIGHT、ACTIVE/INACTIVE、ON/OFF、INTERNAL/EXTERNAL 等 。 


Check 约束 可 以 在 更 多 的 场景 下 使 用 ， 不 仅仅 是 实现 一 个 类 ENUM 的 机 制 ， 比 如 用 来 检查 一 
个 时 间 区 间 中 start 永远 小 于 end。 


11.5 ”解决 方案 : 在 数据 中 指定 值 


有 一 个 更 好 的 解决 方案 来 约束 一 列 中 的 可 选 值 ,创建 一 张 检查 表 ， 每 一 行 包含 一 个 允许 在 
Bugs .status 列 中 出 现 的 候选 值 ， 然 后 定义 一 个 外 键 约束 ， 让 Bugs .status 引用 这 个 新 表 。 


31-Flavors/soln/create-lookup-table.sql 























CREATE TABLE BugStatus ( 
status VARCHAR(20) PRIMARY KEY 
J 


INSERT INTO BugStatus (status) VALUES (CNEWN )，( JIN PROGRESS'), ('FIXED'); 
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CREATE TABLE Bugs ( 
-- other columns 
status VARCHAR(20), 
FOREIGN KEY (status) REFERENCES BugStatus(status) 
ON UPDATE CASCADE 
); 


当 你 插入 或 更 新 Bugs 表 中 的 一 条 记录 时 ， 必 须 使 用 存在 于 BugStatus 表 中 的 一 个 status 
值 。 这 样 做 类 似 于 ENUM 和 Check 约束 一 样 ， 能 够 确保 status 值 的 有 效 性 ; 同时 ,这 样 的 方案 还 
在 其 他 地 方 体现 出 了 它 的 灵活 性 。 


11.5.1 查询 候选 值 集合 


候选 值 集合 现在 是 存储 在 数据 表 中 ,而 不 是 像 ENUM 那 样 存 储 在 元 数据 中 。 你 可 以 使 用 SELECT 
对 这 张 检查 表 进 行 查 询 来 获取 相关 数据 ， 和 查询 别 的 表 没 什么 区 别 。 这 使 得 获取 候选 值 集合 并 作 
为 数据 集 在 用 户 界 面 中 展示 变 得 非 第 简单。 你 甚至 可 以 对 用 户 可 选 值 进行 排序 操作 。 
31-Flavors/soln/query-canonical-values.sql 


SELECT status FROM BugStatus ORDER by status; 


11.5.2 更 新 检查 表 中 的 值 


当 你 使 用 检查 表 时 ， 可 以 使 用 原始 的 INSERT 语句 问 其 中 加 入 一 个 值 。 你 可 以 不 中 断 对 表 的 
访问 就 完成 这 样 的 改变 。 你 也 不 需要 重新 定义 任何 列 , 不 需要 安排 下 线 时 间 , 或 者 执行 一 次 ETL 
操作 。 同 样 ， 你 也 不 需要 在 执行 添加 或 删除 操作 前 知道 当前 检查 表 中 有 哪些 值 。 


31-Flavors/soln/insert-value.sql 





INSERT INTO BugStatus (status) VALUES ( ‘DUPLICATE '); 
如 末 定 义 外 键 时 使 用 了 ON UPDATE CASCADE 选项 ， 重 命名 一 个 值 也 会 变 得 非常 方便 。 


31-Flavors/soln/update-value.sql 


UPDATE BugStatus SET status = “JINVALJID ”WHERE status = ‘BOGUS'; 


11.5.3 ”支持 废弃 数据 
如 果 检 查 表 中 的 一 个 值 被 Bugs 表 中 的 数据 引用 了 ， 那 就 不 能 删除 它 了 。status 列 上 的 外 刍 
确保 了 引用 完整 性 ， 因 此 ，status 列 引 用 的 值 必须 存在 于 检查 表 中 。 


然而 ， 你 可 以 在 检查 表 中 增加 另 一 个 属性 列 来 标记 一 些 废弃 数据 。 这 样 做 允许 你 保留 
Bugs.status 列 中 的 历史 数据 ， 同 时 又 能 够 区 分 哪些 值 是 能 够 出 现在 用 户 界 面 上 的 。 


31-Flavors/soln/inactive.sql 








ALTER TABLE BugStatus ADD COLUMN active 
ENUM( "INACTIVE", ‘ACTIVE') NOT NULL DEFAULT ACTIVE 
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使 用 UPDATE 代 符 DELETE 来 废弃 一 个 值 : 
31-Flavors/soln/update-inacfive.sql 
UPDATE BugStatus SET active = JTJNACTJTTVE ”WHERE status = 'DUPLICATE'; 
当 要 获取 在 界面 上 展示 的 候选 值 列表 时 ,在 查询 条 件 中 增加 一 个 status 为 ACTIVE 的 约束 : 


31-Flavors/soln/select-active.sql 


SELECT status FROM BugStatus WHERE active = 'ACTIVE'; 


这 样 的 解决 方案 相 比 于 ENUM 或 者 Check 约束 来 说 更 加 灵活 ， 因 为 前 两 者 无 法 为 每 个 值 提 供 
额外 属性 。 


11.5.4 民 好 的 可 移植 性 


不 同 于 ENUM 类 型 、Check 约束 ， 或 者 域 及 UDT， 检 查 表 的 解决 方案 只 依赖 于 最 基本 的 SQL 
特性 使 用 外 键 确 保 引 用 完整 性 。 这 使 得 该 解决 方案 的 兼容 性 得 到 了 保证 。 


由 于 在 每 一 行 中 存储 一 个 候选 值 ， 就 使 得 检查 表 在 理论 上 可 以 支持 无 限 多 个 候选 值 。 


在 验证 固定 集合 的 候选 值 时 使 用 元 数据 。 
在 验证 可 变 集 合 的 候选 值 时 使 用 数据 。 
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当 一 个 理论 看 上 去 像 是 唯一 可 能 的 理论 时 , 那 意味 着 你 既 不 理解 这 个 理论 ,也 不 理 
解 尼 所 要 解决 的 问题 。 
卡尔 。 波 普尔 





你 的 数据 库 服 务 帮 在 大 灾难 中 没有 亚 存 下 来 , 在 清理 时 发 现 硬 盘 机 染 整 个 倾倒 了 ,并且 控 坏 
了 。 季 运 的 是 ,没有 人 因此 而 受伤 ,但 是 大 量 的 硬盘 因此 而 损坏 ， 其 至 存放 机 染 的 楼 层 在 机 染 倾 
倒 时 被 硬 军 了 。 所 和 圣 ， 开 部 门 的 灾 备 做 得 比较 好 : 他 们 每 天 都 为 每 个 重要 的 系统 做 了 备份 ,并且 
快速 地 在 新 的 服务 左上 部 晋 了 新 的 服务 ， 恢 复 了 数据 库 。 

冒 烟 测 试 进行 疫 多 从 后 发 现 了 一 个 问题 : 你 的 程序 将 图 像 与 很 多 数据 库 字 段 进行 了 关联 , 但 
是 所 有 这 些 图 片 都 不 见 了 1 你 立刻 打 给 了 开 技 术 部 门 。 

“我 们 恢复 了 数据 库 并 且 验 证 了 这 十 和 上 次 备份 一 样 的 完整 副本 ,” 这 个 技术 人 员 说 : “图片 
古 存 在 哪里 的 ? 

你 现在 想起 来 了 ,在 这 个 应 用 中 ,图 片 是 存在 数据 库 之 外 的 ,普通 文件 邵 是 存在 文件 系统 中 
的 。 数 据 库 里 只 存 了 图 片 的 路 径 , 通过 程序 去 打开 对 应 路 径 的 图 片 。" 图 片 古 以 文件 形式 存储 的 。 
它们 是 在 /var 目录 下 ， 和 数据 库 一 起 。 

这 个 技术 人 员 摇 了 摇头 。 除非 你 做 过 特殊 说 明 ， 否 则 我 们 不 备份 war 下 的 内 容 。 当 然 我 们 
会 备份 数据 库 的 文件 ， 但 /var 目录 经 第 是 存放 日 志 、 绥 存 或 其 他 临时 文件 的 地 方 。 默 认 情 况 下 ， 
这 些 数 据 邦 古 不 备份 的 。 

你 心痛 啊 。 那 个 目录 下 存 了 超过 11 000 张 在 产品 分 类 数据 库 中 使 用 的 图 片 。 大 多 数 可 能 在 其 他 
地 方 还 有 备份 , 但 要 把 它们 都 放 到 一 起 , 重新 编排 , 并 且 为 网 络 搜 索 重 做 颖 略图 要 化 好 几 个 星期 啊 ! 


12.1 目标 : 存储 图 片 或 其 他 多 媒体 大 文件 
如 今 ， 图 片 等 多 媒体 文件 已 经 广泛 使 用 在 很 多 程序 中 。 有 时 ， 多 媒体 文件 和 数据 库 中 的 一 些 
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实体 关联 。 比 如 ， 你 可 能 会 允许 一 个 用 户 在 提交 评论 时 显示 一 个 头像 。 在 我 们 的 Bug 数据 库 中 ， 
Bug 通常 需要 附带 一 个 截屏 来 展示 具体 情况 。 

本 章 的 目标 就 是 要 存储 这 些 图 片 并 且 将 其 和 数据 库 实体 (诸如 用 户 账户 或 者 Bug) 关联 起 来 。 
当 查 询 这 些 实体 时 ， 我 们 需要 确保 同时 能 获取 与 其 关联 的 图 片 。 
12.2 反 模 式 : 假设 你 必须 使 用 文件 系统 


理论 上 来 说 ， 图 乒 是 一 张 表 中 的 一 个 字段 ， 在 Accounts 表 中 可 能 会 有 一 个 portrait_image 列 。 


Phantom-Files/anti/create-accounts.sql 








CREATE TABLE Accounts ( 
account_id SERIAL PRIMARY KEY 
account_name VARCHAR(20), 
portrait_ image BLOB 

0 


同样 地 , 你 可 以 在 从 属 表 中 存储 多 张 同类 型 的 图 片 。 比如 , 每 个 Bug 都 可 以 有 多 张 屏 幕 截图 。 
Phantom-Files/anti/create-screenshots.sql 


CREATE TABLE Screenshots ( 


bug_id BIGINT UNSIGNED NOT NULL ， 
image_id SERIAL NOT NULL, 
screenshot image BLOB, 

caption VARCHAR (100 ) ， 

PRIMARY KEY (bug_1id, image_1d), 
FOREIGN KEY (bug_id) REFERENCES Bugs (bug_1d) 


2 

这 些 都 不 难 理解 , 但 真正 的 重点 占 题 是 选择 什么 样 的 数据 类 型 来 存储 图 片 ? 原始 图 片 文件 可 
以 以 二 进 制 格式 存储 在 BLOB 类 型 中 ， 就 像 之 前 我 们 存储 超 长 字段 那样 。 然 而 ， 很 多 人 选择 将 图 
片 存储 在 文件 系统 中 ， 然 后 在 数据 库 里 用 VARCHAR 类 型 来 记录 对 应 的 路 径 。 


Phantom-Files/anti/create-screenshots-path.sql 





CREATE TABLE Screenshots ( 


bug_id BIGINT UNSIGNED NOT NULL ， 
1mage_1d BIGINT UNSIGCNED NOT NULL ， 
screenshot_path VARCHAR (100 ) ， 

caption VARCHAR (100 ) ， 

PRIMARY KEY (bug_1d，image_1d) ， 
FOREIGN KEY (bug_ id) REFERENCES BugsCbug_ id) 


了 

开发 人 员 沿 列 地 争论 着 这 个 问题 。 两 种 方案 都 有 很 好 的 立足 点 ,但 是 对 于 程序 员 来 说 通 稼 只 
有 一 种 选择 ， 就 是 我 们 应 该 将 文件 存在 数据 库 之 外 。 可 能 我 的 观点 有 点 不 合 时 宜 ， 但 我 依旧 要 在 
接 下 来 的 几 市 中 指明 这 样 的 设计 所 面临 的 很 现实 的 风险 。 
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12.2.1 文件 不 支持 DELETE 


第 一 个 问题 就 是 垃圾 回收 。 如 采 图 卢 在 数据 库 之 外 ， 并 且 你 想 要 删除 包含 这 个 路 径 的 记录 ， 
没有 什么 办 法 能 目 动 地 将 路 径 对 应 的 文件 移 除 。 

Phantom-Files/anti/delete.sql 

DELETE FROM Screenshots WHERE bug 1d = 1234 and image 1d = 1; 

除非 你 的 应 用 程序 设计 成 在 删除 记录 的 同时 删除 这 些 “ 无 人 领养 ”的 图 片 , 不 然 这 些 图 片 就 
会 堆积 在 那里 。 
12.2.2 文件 不 支持 事务 隔离 

通常 ， 当 更 新 或 删除 数据 时 ， 在 使 用 COMMIT 指令 完成 事务 操作 之 前 ， 所 有 的 改变 都 对 其 他 
的 客户 端 不 可 见 。 

然而 ， 任 何 对 数据 库 之 外 的 文件 的 操作 并 非 如 此 。 如 有 果 你 删除 了 一 个 文件 ， 对 于 其 他 的 客户 
问 来 说 就 立刻 无 法 访问 该 图 片 了 。 并且 如 果 你 改变 了 文件 的 内 容 , 其 他 的 客户 端 可 以 立刻 看 到 这 
些 变更 ， 而 不 是 看 到 在 事务 未 提交 之 前 的 文件 状态 。 


Phantom-Files/anti/transaction.php 














<?php 


$stmt = $pdo->query("DELETE FROM Screenshots 
WHERE bug_ 1d = 1234 AND image_ 1d =1"); 


unlink( 'i1mages/screenshot1234-1. pg '); 
// Other clients still see the row in the database, 
// but not the image file. 


$pdo->commit(); 

在 实际 生产 过 程 中 ， 这 样 的 特例 可 能 并 不 第 见 。 同 样 ， 本 例 的 影响 也 比较 小 ; 在 Web 程序 
中 ,丢失 图 片 的 情况 很 少见 。 但 在 别 的 情况 下 ， 后 末 就 可 能 非常 严重 。 
12.2.3 ”文件 不 支持 回 深 操 作 

出 错 情 况 下 ， 或 者 程序 逻辑 要 求 取 消 变 更 时 ， 对 数据 进行 回 深 操 作 是 很 平 肖 的 事情 。 


比如 ， 你 最 开始 执行 了 一 句 DELETE 语句 来 删除 一 条 记录 并 同时 移 除 了 对 应 的 截屏 文件 ， 然 
后 你 回 深 了 这 个 操作 ， 被 删除 的 数据 回来 了 了 ， 但 文件 已 经 没 了 。 


Phantom-Files/anti/rollback.php 





<?php 
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$stmt = $pdo->query("DELETE FROM Screenshots 
WHERE bug id = 1234 AND 1Tmage 1d =1"); 


unlink("images/screenshot1234-1.]jpg"); 


$pdo->rollbackO); 
数据 库 中 的 记录 能 够 恢复 ， 但 文件 不 能 。 


12.2.4 ”文件 不 支持 数据 库 备份 工具 


大 多 数 数据 库 产 品 都 提供 客户 端 工具 来 协助 备份 使 用 中 的 数据 库 。 比 如 MySQL 提供 了 一 个 
叫做 mysqldump 的 组 件 ，Oracle 提供 了 rman，PostgreSQL 提供 了 pg_dump，SQLite 提供 了 .dump 
命令 等 。 使 用 备份 工具 非常 重要 ， 如 果 同 一 时 刻 别 的 客户 端正 在 进行 变更 操作 ,将 可 能 使 你 的 备 
份 包含 不 完整 的 变更 , 造成 六 在 的 引用 不 完整 性 ， 其 至 使 得 整个 备份 被 破坏 以 至 于 无 法 用 于 恢复 
数据 库 。 

但 是 备份 工具 并 不 知道 如 何 将 通过 路 径 引 用 的 那些 文件 也 包含 在 备份 操作 当中 。 因此 在 备份 
一 个 数据 库 时 ， 你 需要 记 住 执行 一 个 两 步 操作 : 使 用 数据 库 备份 工具 ， 然后 使 用 文件 系统 备份 工 
有 具 来 收集 外 部 图 像 文件 。 

即使 在 备份 时 包含 了 外 部 文件 , 也 很 难保 证 这 些 文件 备份 和 你 执行 备份 数据 库 的 事务 是 同步 
的 。 程 序 可 能 在 任何 时 间 对 图 片 文 件 做 变更 ， 也 许 就 在 你 开始 备份 数据 库 之 后 不 久 。 

12.2.5 ”文件 不 支持 SQL 的 访问 权限 设置 


外 部 文件 会 绕 开 通过 GRANT 和 REVOKE SQL 语句 设 定 的 访问 权限 。SQL 权限 管理 着 对 表 和 列 
的 访问 ， 但 它们 并 不 能 应 用 到 外 部 文件 。 
12.2.6 ”文件 不 是 SQL 数 据 类 型 

在 screenshot_path 字段 中 存储 的 路 径 就 是 一 个 字符 串 。 数 据 库 并 不 会 验证 这 个 字符 串 是 
一 个 有 效 的 路 径 ， 也 不 会 验证 对 应 的 文件 是 否 存在 。 如 果 这 个 文件 被 重合 名、 移动 或 者 删除 了 ， 
数据 库 并 不 会 自动 更 新 对 应 的 路 径 。 任 何 将 这 个 字符 串 作 为 路 径 处 理 的 逻辑 都 依赖 于 你 的 程序 


逻辑 。 

















Phantom-Files/anti/file-get.php 


<?php 
define( 'DATA DIRECTORY', '/var/bugtracker/data/ '); 


$stmt = $pdo->query("SELECT image_ path FROM Screenshots 
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WHERE bug_ id = 1234 AND 1image_ id = 1"); 
$row = $stmt->fetch(); 
$image_path = $row[0]; 


// Read the actual image -- I hope the path 1s correct! 
$image = file get contents(DATA DIRECTORY . $image_ path); 


使 用 数据 库 的 好 处 之 一 在 于 它 能 帮助 我 们 保持 数据 完整 性 。 当 你 将 数据 放 在 外 部 文件 中 时 ， 
就 抛弃 了 数据 库 提 供 的 这 个 好 处 , 并 且 你 不 得 不 写 更 多 的 程序 代码 来 执行 本 该 由 数据 库 进行 的 检 


查 操 作 。 
12.3 如何 识别 反 模 式 


要 发 现 这 个 反 模式 需要 一 定 的 调查 。 如 琳 一 个 项 目 有 指导 软件 省 理 员 的 文档 , 或 者 你 有 机 会 
与 设计 项 目的 程序 员 (或 者 就 是 你 自己 ) 面谈 ， 芳 虑 一 下 如 下 几 个 辣 题 的 答案 。 

D 数据 备份 和 恢复 的 过 程 是 怎样 的 ? 怎么 对 一 个 备份 进行 验证 ?你 有 没有 在 一 个 干 奖 的 系 
统 或 者 在 别 的 系统 上 对 备份 恢复 的 数据 进行 测试 ? 

D 图 片 文件 堆积 在 那里 ， 还 是 当 它们 抓 立 的 时 候 就 从 系统 中 移 除 ? 移 除 它们 的 过 程 是 怎样 
的 ? 这 十 一 个 目 动 的 还 是 手动 的 过 程 ? 

D 系统 中 的 哪些 用 户 有 权限 查看 这 些 图 片 ? 进入 权限 是 怎么 限制 的 ? 当 用 户 请 求 看 他 们 无 
权 和 三 看 的 图 片 时 会 发 生 什么 ? 

D 我 能 撤销 对 图 片 的 变更 吗 ? 如 采 能 ， 征 应 用 程序 来 负责 恢复 图 片 之 前 的 状态 吗 ? 


典型 的 使 用 反 模 式 的 项 目 通 第 没有 旁 卡 以 上 的 几 个 或 者 全 部 的 问题 。 并 不 古 每 个 程序 都 需要 
有 针对 图 斤 的 很 强 的 事务 管理 或 者 SQL 访问 控制 。 可 能 在 备份 过 程 中 将 数据 库 下 线 也 是 一 个 很 
好 的 方案 。 如 末 以 上 这 些 问 题 的 回答 不 明确 或 者 并 没有 立刻 给 出 回答 ， 那 可 以 假设 这 个 项 目 对 于 
外 部 文件 使 用 的 并 没有 经 过 精心 设计 。 


12.4 ”合理 使 用 反 模式 


如 下 是 一 些 将 图 片 或 者 大 文件 存储 在 数据 库 之 外 的 好 理由 。 

D 这 个 数据 库 在 没有 图 片 的 时 候 能 精益 很 多 ， 因 为 图 片 相 比 于 人 简单 的 数据 类 型 (比如 整形 
和 字符 串 ) 来 说 更 大 。 

D 当 不 包含 图 片 时 备份 数据 库 会 更 快 并 且 备份 的 文件 更 小 。 你 必须 额外 执行 一 次 文件 备份 ， 
但 这 比 备份 一 个 大 型 数据 库 要 更 容易 管理 。 

口 如 末 图 片 是 存储 在 数据 库 之 外 的 文件 系统 里 ， 对 图 片 的 预 宽 或 者 编辑 就 能 够 使 用 更 简单 
直接 的 处 理 方 式 。 比 如 ， 如 琳 你 需要 执行 一 个 批 处 理 编辑 所 有 的 图 片 ， 将 其 保存 在 数据 
库 之 外 就 是 一 个 特别 好 的 选择 。 
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如 果 这 些 将 图 片 存 在 文件 系统 中 的 好 处 是 重要 的 , 并 且 之 前 几 节 所 描述 的 那些 事项 并 不 会 破 
坏 你 的 系统 ， 那 束 可 以 肯定 将 图 片 存在 数据 库 之 外 对 于 你 的 项 目 来 说 是 正确 的 决定 。 

一 些 数据 库 产 品 提 供 了 一 些 特殊 的 SQL 数据 类 型 ， 为 支持 对 外 部 文件 引用 提供 或 多 或 少 的 
透明 性 。Oracel 称 这 种 类 型 为 BFILE，SQL Server 2008 称 之 为 FILESTREAM。 


不 要 排除 任何 设计 

我 在 1992 年 的 时 候 为 一 个 外 包工 程 设计 了 一 个 将 图 片 存 储 在 数据 库 之 外 的 程序 。 
我 的 雇主 承接 了 一 个 技术 会 议 的 注册 程序 。 在 会 议 即将 开始 之 前 , 我 们 用 一 个 照相 机 对 
每 个 与 会 人 士 拍照 ,并 将 他 们 的 照片 加 到 他 们 的 注册 信息 中 , 同时 也 打印 在 他 们 的 通行 
1E 上 。 

我 的 程序 非常 简单 。 每 个 图 片 都 只 能 被 一 个 客户 菇 插 入 或 者 更 新 (如果 这 个 人 在 拍 
照 时 肯 眼 了 ， 或 者 不 喜欢 他 们 的 上 照片， 我 们 会 在 注册 时 就 更 换 它 )。 没 有 复杂 的 事务 处 
理 的 需求 ， 也 没有 多 客户 荔 的 并 发 访问 或 者 回 滚 需 求 。 我 们 黄 至 没有 使 用 SQL 的 权限 
控制 。 预 览 图 片 的 还 辑 简单 到 根本 不 需要 将 其 从 数据 库 中 提取 出 来 。 

我 开发 这 个 项 目的 时 候 ， 数 据 库 及 客户 端 技术 还 不 像 现 在 这 么 发 达 。 于 是 我 们 有 很 
充分 的 理由 在 这 种 情况 下 将 图 片 直接 存在 文件 系统 目录 中 ,并 且 使 用 应 用 层 代 码 来 维护 。 


你 需要 规划 你 的 程序 如 何 使 用 这 些 文件 , 并 且 了 解 本 章 所 描述 的 反 模 式 是 否 会 影响 到 你 的 系 
统 。 做 一 个 明智 的 决定 ， 而 不 仅仅 听 那 些 将 图 片 存在 数据 库 之 外 的 程序 员 的 泛泛 之 谈 。 
12.5 ”解决 方案 : 在 需要 时 使 用 BLOB 类 型 


如 末 在 12.2 方 中 所 摘 述 的 任何 问题 适用 于 你 的 项 目 ， 你 应 该 贾 旁 虑 将 图 片 从 数据 库 之 外 转移 
到 数据 库 之 内 。 所 有 的 数据 库 产品 邦 文 持 BLOB 类 型 ， 文 持 你 存储 任何 二 进 制 数据 。 


Phantom-Files/soln/create-screenshots.sql 











CREATE TABLE Screenshots ( 


bug_id BIGINT UNSIGNED NOT NULL ， 

1mage_1d BIGINT UNSIGNED NOT NULL ， 

screenshot image BLOB, 

caption VARCHAR (100 ) ， 

PRIMARY KEY (bug_1d, image_1d), 

FOREIGN KEY (bug_ id) REFERENCES Bugs (bug_id) 
J 


如 琳 你 将 图 片 存在 一 个 BLOB 类 型 的 列 中 ， 所 有 的 问题 都 将 得 到 解决 。 


D 图 片 数 据 存储 在 数据 库 中 。 不 需要 额外 的 步 又 加 载 亡 ， 也 就 没有 “文件 路 径 不 正确 ”这 
样 的 风险 。 
D 删除 一 条 记录 同时 也 目 动 地 删除 了 图 片 。 
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D 直到 你 提交 了 事务 ， 否 则 对 图 片 的 改变 是 对 其 他 客户 端 不 可 见 的 。 

D 回 深 事 务 会 恢复 图 片 之 前 的 状态 。 

D 更 新 记录 的 时 候 会 加 锁 ， 因 此 不 会 有 别 的 客户 端 并 发 更 新 图 片 。 

D 数据 库 备 份 会 包含 所 有 的 图 片 。 

D SQL 权限 控制 对 图 片 也 有 效 。 

BLOB 类 型 的 最 大 值 依 据 不 同 的 数据 库 庆 品 而 不 同 ， 但 对 于 存储 大 部 分 的 图 片 文 件 来 说 都 是 
足够 的 。 所 有 的 数据 库 都 支持 BLOB 或 者 类 似 的 类 型 。 比 如, MySQL 提供 了 一 个 叫做 MEDIUMBLOB 
的 类 型 ， 支持 最 大 16MB 的 数据 ， 对 于 绝 大 部 分 图 片 来 说 都 足够 了 。Oracle 提供 了 一 个 LONG RAW 
或 者 BLOB 的 类 型 ， 最 大 支持 2GB 或 者 4GB 的 长 度 。 类 似 的 类 型 在 其 他 数据 库 产 品 中 也 能 找到 。 

图 片 文件 最 开始 都 征 以 文件 形式 存储 的 ， 因 此 你 需要 一 些 途径 将 它们 载 入 BLOB 列 。 一 些 数 
据 库 产品 提供 了 加 载 外 部 文件 的 函数 。 比 如 ，MySQL 有 个 函数 叫做 LOAD_FILEQO， 你 可 以 用 它 
来 读 取 一 个 文件 ， 然 后 将 内 容 存 到 BLOB 列 中 。 


Phantom-Files/soln/load-file.sql 








UPDATE Screenshots 
SET screenshot image = LOAD_ FILE( 'images/screenshot1234-1.7pg') 
WHERE bug 1d = 1234 AND image 1d = 1; 


同样 地 ,你 也 可 以 将 BLOB 列 的 内 容 存 储 到 一 个 文件 中 去 。 比 如 , MySQL 有 一 个 可 选 的 SELECT 
子 句 能 将 一 个 查询 完整 地 不 加 修改 地 存储 到 文件 中 去 。 


Phantom-Files/solIn/dumprfile.sql 


SELECT screenshot_ image 

INTO DUMPFILE 'images/screenshot1234-1.jpg' 
FROM Screenshots 

WHERE bug_ 1d = 1234 AND 1mage_1d =1; 


你 也 能 够 直接 从 BLOB 字段 中 提取 图 片 并 且 输 出 。 在 Web 程序 中 ， 你 可 以 将 二 进 制 数据 以 图 
片 输出， 但 你 需要 将 内 容 类 型 设置 为 合适 的 值 。 


Phantom-Files/soln/binary-content.php 








<?php 

header('Content-type: image/ijp9g'); 

$stmt = $pdo->query("SELECT screenshot_ image FROM Screenshots 
WHERE bug 1d = 1234 AND image 1d = 1"); 


$row = $stmt->fetchO; 


print $row[0]; 


存储 在 数据 库 之 外 的 数据 不 由 数据 库 管 理 。 
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无 论 何 时 ， 在 机 器 的 帮助 下 找到 结果 ,， 另 一 个 问题 就 冒 出 来 了 一 一 通过 何 种 计算 过 
程 ， 能 让 机 器 最 快 地 来 出 结果 ? 
查尔斯 。 巴 贝 奇 ，《 哲 学 家 的 生命 历程 》(1864 ) 





虽 ! 你 有 没有 时 间 ? 我 需要 你 的 帮助 。 市 有 俄 殉 拉 何 马 口音 的 人 在 电话 那 头 对 着 你 喊 ， 他 
的 声音 也 顺 着 数据 中 心 的 通风 管 间 传 过 来 。 这 是 你 们 公司 的 数据 库 管理 员 的 头 儿 。 





“当然 。 你 有 所 心虚 地 回答 道 。 他 想 干 嘛 ? 





“是 这 样 , 有 一 个 你 们 的 数据 库 服务 在 运行 , 它 占 了 太 多 资源 。 这 个 DBA 继续 说 道 ， 我 
进去 看 了 一 下 ， 然 后 发 现 了 问题 。 在 有 些 表 上 完全 没有 使 用 索引 ， 而 在 其 他 表 上 索引 又 多 得 用 
不 了 。 





“我 们 必须 解决 这 个 问题 ， 或 者 给 你 们 一 台独 立 服 务 强 ， 因 为 这 台 机 如 上 的 其 他 服务 都 无 法 
正 第 使 用 了 1 

“我 很 抱歉 。 事 实 上 ， 我 对 数据 库 了 解 得 不 多 。 你 小 心地 回答 ,尽量 让 这 个 DBA 冷静 下 来 ， 
“我 们 已 经 尽 了 最 大 的 努力 来 猜测 哪些 是 可 以 优化 的 ,但 显然 这 些 工作 只 有 你 们 这 些 专 家 才能 做 
得 好 。 有 没有 什么 你 能 做 的 调整 ? 





“ 护 子 ， 我 做 了 所 有 能 做 的 调整 ， 这 就 古 为 什么 到 目前 为 止 它 还 没有 挂 挥 ， 这 个 DBA 回答 
道 ,，“ 留 给 我 的 唯一 选择 是 限制 你 们 的 程序 对 数据 库 的 访问 量 ， 但 我 认为 你 们 并 不 想 要 这 样 。 我 
们 必须 停止 猜测 ， 首 先 我 们 要 和 弄 明白 你 们 的 程序 到 的 需要 数据 库 做 什么 。 


你 觉得 头 都 大 了 ， 小 心 谨慎 地 问 道 :“ 你 有 什么 想法 吗 ? 坦白 地 说 ， 我 们 组 里 并 疫 有 数据 库 
方面 的 专家 。 


这 不 成 问题 。 这 个 DBA 笑 道 ， 你 们 确实 对 你 们 的 程序 了 如 指 和 区, 对 吧 ? 而 这 部 分 征 关 键 
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内 容 , 不 过 我 可 帮 不 上 和 忙 。 我 会 派 一 个 手下 到 你 们 那 去 帮忙 安装 一 些 正确 的 工具 ,然后 我 们 将 找 
到 并 消除 你 们 的 瓶 贷 。 你 们 只 需要 一 点 护 的 指导 。 你 很 快 就 会 明白 的 。 


13.1 目标 : 优化 性 能 


性 能 是 我 从 那些 数据 库 开 发 人 员 那 里 听 到 的 一 个 最 普遍 的 问题 。 只 要 看 一 下 任何 技术 会 议 的 
议题 你 即 可 明白 : 到 处 都 充斥 着 工具 和 技术 来 让 数据 库 再 多 工作 一 点 。 当 我 要 做 的 讲座 涉及 如 何 
规划 数据 库 或 写 出 更 为 可 靠 、 安全、 正确 的 SQL 方面 内 容 时 ， 有 可 能 他 们 唯一 的 疑问 在 于 :“ 好 
吧 ， 但 是 这 些 对 性 能 有 什么 影响 ?” ”而 我 对 此 并 不 感到 吃惊 。 

改善 性 能 最 好 的 技术 就 古 在 数据 库 中 合理 地 使 用 索 51。 索引 也 是 数据 结构 ， 它 能 使 数据 库 将 
站 定 列 中 某 个 值 快速 定位 在 相应 的 行 。 索引 提供 了 一 种 人 简单 而 高 效 的 途径 让 数据 库 能 够 快速 地 找 
到 需要 的 值 ， 而 不 征 妓 蛮 地 进行 一 次 目 上 而 下 的 全 表 遇 历 。 

软件 开发 人 员 通 党 并 不 理解 如 何 或 何 时 使 用 索引 。 关 于 何 时 使 用 索引 这 个 同 题 , 数据 库 相 关 
文档 和 书籍 也 很 少 或 根本 没有 清晰 的 说 明 ， 开 发 人 员 通 常 只 能 猜测 如 何 有 效 地 使 用 索引 1。 


13.2 反 模 式 : 无 规划 地 使 用 索引 
当 我 们 通过 猜测 来 选择 索引 时 , 不 可 避免 地 会 犯 一 些 错误 。 对 何 时 使 用 索引 的 误解 可 能 会 导 
致 如 下 三 种 类 型 的 错误 : 


D 不 使 用 索引 或 索 ?| 不 足 ; 
D 使 用 了 太 多 的 索引 或 者 使 用 了 一 些 无 效率 35|; 
D 执行 一 些 让 案 引 无 能 为 力 的 查询。 





























13.2.1 无 索引 





我 们 通 稍 都 知道 ， 数 据 库 在 保持 索引 同步 的 时 候 会 有 额外 的 开销 。 我 们 每 次 使 用 INSERT、 
UPDATE, 或 者 DELETE 时 , 数据 库 就 不 得 不 更 新 索引 的 数据 结构 来 使 得 所 记录 的 表 数 据 古 一 致 的 ， 
然后 我 们 使 用 这 个 索引 进行 查询 时 就 能 准确 地 找到 所 需要 的 记录 。 


我 们 已 经 习惯 性 地 将 额外 开销 认为 古 浪 费 。 因 此 当 我 们 知道 数据 库 在 保持 索引 同步 的 时 候 会 
造成 额外 的 开销 , 就 想 要 消除 它 。 一 些 开 发 人 员 于 古 得 出 结论 , 终极 的 解决 方案 就 是 不 使 用 索引 |。 
这 个 建议 很 闸 见 , 但 它 名 略 了 一 个 事实 , 那 就 是 索引 能 够 通过 市 给 你 更 多 的 好 处 来 抵 销 它 的 额外 
开销 。 
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”索引 不 是 标准 


你 知道 ANSI SQL 的 标准 中 没有 任何 和 索引 相关 的 描述 吗 ? 数据 存储 方面 的 实现 和 优 
化 在 SQL 语言 中 并 没有 明确 的 说 明 ， 因 此 每 个 数据 库 产 品 在 实现 索引 的 方式 上 都 有 很 高 的 
自由 度 。 

大 多 数 数 据 库 产品 都 使 用 相似 的 CREATE INDEX 语 向 ， 但 每 个 产品 都 有 一 定 的 灵活 度 来 
修改 并 加 入 一 些 它们 自己 的 技术 。 索 引 没 有 标准 的 兼容 模式 。 同 样 地 ， 也 没有 索引 维护 、 自 
动 化 查询 优化 、 查 询 计 划 报 表 的 标准 ， 或 者 类 似 于 EXPLAIN 这 样 的 指令 。 

要 尽 可 能 地 了 解 索引 ,你 只 能 仔细 阅读 你 所 使 用 的 数据 库 产 品 的 文档 。 有 具体 的 语法 和 特 

| 性 对 于 不 同 的 产品 来 说 有 很 大 的 区 别 ， 但 基本 的 逻辑 和 理论 都 是 通用 的 ，。 











不 定 所 有 的 额外 开销 都 征 淄 融 。 你 的 公司 所 雇佣 的 管理 层 、 法 律 顾问 、 会 计 ， 那 些 与 办 公设 
施 有 关 的 开销 ,其 至 那些 对 公司 收入 没有 直接 帮助 的 开销 都 古 浪 费 蚂 ? 不 ， 因 为 这 些 人 和 物 都 从 
不 同 的 方面 为 公司 做 了 重要 的 页 献 。 


在 传统 的 软件 中 , 每 一 次 更 新 都 会 执行 上 百 次 表 查 询 操 作 。 每 次 当 你 执行 一 个 使 用 索引 的 查 
询 时 ， 你 就 抵消 了 一 部 分 由 于 维护 索引 而 造成 的 额外 开销 。 

索引 也 能 帮助 UPDATE 或 者 DELETE 语句 快速 地 找到 对 应 的 记录 。 比 如 ，bug_id 这 个 主键 上 
的 索引 | 能 有 效 提升 下 向 这 条 语句 的 效率 : 


Index-Shotgun/anti/update.sql 








UPDATE Bugs SET status = 'FIXED' WHERE bug_id = 1234; 
一 条 在 非 索 5| 列 上 执行 的 语句 会 导致 数据 库 执行 全 表 表 历 来 查找 匹配 记录 。 


Index-Shotgun/anti/update-unindexed.sql 


UPDATE Bugs SET status = 'OBSOLETE' WHERE date_ reported < '2000-01-01'; 


13.2.2 索引 过 多 


你 只 能 在 使 用 索引 进行 查询 时 才能 受益 。 对 于 那些 你 不 使 用 的 索引 ， 你 无 法 获得 任何 好 处 。 
这 里 有 一 些 例 子 : 
Index-Shotgun/anti/create-table.sqgl 


CREATE TABLE Bugs ( 


bug_1d SERIAL _ PRIMARY KEY ， 
date_reported DATE NOT NULL ， 
summary VARCHAR(80) NOT NULL ， 
status VARCHAR(10) NOT NULL ， 
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hours NUMERIC(9,2), 

INDEX (bug_1d), 

INDEX (summary), 

INDEX (hours), 

INDEX (bug_id, date reported, status) 
); 


在 之 前 的 例子 里 ， 有 这 么 儿 个 无 用 的 索引 : 


@ bug_id: 大 多 数 数据 库 都 会 自动 地 为 主键 建立 索引 ， 因 此 额外 再 定义 一 个 索引 就 是 一 个 
元 余 操 作 。 这 个 额外 定义 的 索引 并 无 任何 好 处 , 它 只 会 成 为 额外 的 开销 。 关于 何 时 自动 创建 索引 ， 
每 个 数据 库 产 品 都 有 自己 的 规则 。 你 需要 仔细 地 阅读 你 所 使 用 的 数据 库 的 说 明文 档 。 

@ summary: 对 于 长 字符 串 ， 比 如 VARCHAR(80) 这 种 类 型 的 索引 要 比 更 为 紧凑 数据 类 型 的 索 
引 大 很 多 。 同 样 地 ， 你 也 不 太 可 能 对 summary 列 进 行 全 匹配 查找 。 

@ hours: 这 是 男 一 个 你 不 太 可 能 按照 特定 值 进行 搜索 的 列 。 

@ bug_ id，date_reported，status: 使 用 组 合 索引 是 一 个 很 好 的 选择 ， 但 大 多 数 人 创建 
的 组 合 索 引 通 常 都 是 元 余 索 引 或 者 很 少 使 用 。 同 样 地 ,组合 索 引 中 的 列 的 顺序 也 很 重要 : 你 需要 
在 查询 条 件 、 联 合 条 件 或 者 排序 规则 上 使 用 定义 索引 时 的 从 左 到 右 的 顺序 。 


GOoQ@ 


对 冲 风 险 

比尔 。 科 斯 比 说 了 一 个 他 在 拉 斯 维 加 斯 的 故事 。 他 在 赌场 输 了 钱 之 后 觉得 很 有 扯 
败 感 ， 于 是 决定 在 走 之 前 至 少 要 赢 一 点 东西 。 因 此 他 买 了 200 美元 的 25 分 硬币 筹码 ， 
然后 走 到 了 轮 盘 赌 桌 前 ， 在 每 个 方 格 内 ， 不 管 红 的 或 是 黑 的 ,都 放 了 些 筹码 ， 把 整 张 赌 
桌 都 履 盖 了 。 然 后 庄家 转动 了 那个 球 ……' 那 个 球 掉 在 了 地 上 。 





有 些 人 为 每 一 列 一 一 以 及 每 个 组 合 列 一 一 都 创建 索引 ， 因 为 他 们 不 知道 哪个 索引 对 碍 询 有 
帮助 。 如 琳 你 对 数据 库 中 的 每 张 表 每 个 列 都 做 索引 ， 就 造成 了 很 多 无 法 确定 收益 的 额外 开销 。 





13.2.3 索引 也 无 能 为 力 


接 下 来 党 犯 的 一 个 错误 就 是 进行 一 个 无 法 使 用 索引 | 的 奋 询 。 开 发 人 员 创 建 了 越 来 越 多 的 索 
引 ， 莹 试 痢 去 发 现 一 个 神奇 的 组 合 方式 或 者 索引 选项 来 加 速 他 们 的 碍 询 。 

我 们 可 以 想象 数据 库 的 索引 使 用 了 类 似 于 电话 号 码 敌 的 结构 。 如 来 我 让 你 去 电话 己 码 得 里 查 
一 下 有 哪些 人 姓 Charles， 这 会 是 一 个 很 侧 单 的 任务 。 所 有 同姓 的 人 都 列 在 了 一 起 ， 因 为 这 就 是 
电话 过 码 短 排 序 的 方式 。 

然而 ， 如 果 我 让 你 去 查 一 下 谁 的 名 字 叫 做 Charles， 电 话 得 的 名 字 排 序 方式 就 帮 不 上 忙 了 。 
任何 人 都 可 以 叫 Charles， 而 不 管 他 姓 什 么 ， 因 此 你 必须 一 行 行 地 在 志 码 短 中 查找 。 
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电话 号 码 细 古 按照 先 姓 后 名 的 方式 对 联系 人 进行 排序 的 ， 就 像 一 个 按照 1ast_name、 
first_name 顺序 创建 的 联合 索引 一 样 。 这 种 索 5| 不 能 帮 你 按照 名 来 进行 快速 查找 。 

Index-Shotgun/anti/create-index.sql 

CREATE INDEX TelephoneBook ON Accounts(last name, first_ name); 


下 面 有 一 些 无 法 使 用 索引 进行 查询 的 例子 。 


DD SELECT * FROM Accounts ORDER BY first_name，1ast_name ; 
这 个 查询 就 是 之 前 电话 号 码 往 的 情况 。 如 果 你 创建 了 一 种 先 1ast_name 再 first_name 
顺序 的 联合 索引 (就 如 同 电话 号 码 往 )， 它 是 不 会 帮 你 先 按照 fi rst_name 进行 排序 。 


D SELECT * FROM Bugs WHERE MONTH(date_reported) = 4; 
即使 你 为 date_reported 列 创建 了 一 个 索引 ， 这 个 索引 的 排序 规则 也 无 法 帮 你 按照 月 份 
查询 。 这 个 索 ?| 是 按照 完整 的 日 期 进行 排序 的 ， 从 年 份 开始 。 但 每 一 年 都 有 第 四 个 月 ， 
因此 ， 月 份 为 4 的 数据 分 散在 整 张 表 中 。 
一 些 数 据 库 支持 表达 式 索 5351， 或 者 针对 衍生 列 进行 和 普通 列 一 样 的 索引 。 但 你 必须 在 使 
用 前 明确 地 定义 索引 的 行为 ， 并 且 这 些 索 引 只 能 在 你 定义 的 表达 式 查 询 上 市 省 时 间 。 





DD SELECT * FROM Bugs WHERE last_name = 'Charles' OR first_ name = "Charles'; 
我 们 又 回 到 之 前 那个 问题 上 来 了 ， 包 括 指 定名 字 的 行 分 散在 整 张 表 中 ， 无 法 和 我 们 定义 
的 索引 顺序 匹配 。 上 面 的 这 个 查询 和 下 面 的 这 个 查询 的 结 末 是 一 样 的 : 


SELECT * FROM Bugs WHERE last name = “Charjes- 
UNION 
SELECT * FROM Bugs WHERE first name = “Charjes 


该 例 中 的 索引 能 帮助 我 们 快速 地 按 姓 查找 ， 但 对 于 按 名 查找 则 无 能 为 力 。 


DQ SELECT * FROM Bugs WHERE description LIKE ‘'%crash%'; 
由 于 这 个 查询 断言 的 匹配 子 串 可 能 出 现在 该 字段 的 任何 部 分 ， 因 此 即使 经 过 排序 的 索引 
结构 也 帮 不 上 任何 忙 。 


13.3 如何 识别 反 模 式 
如 下 几 点 古 使 用 了 “乱用 索引 ” 反 模 式 的 特征 。 
DD“ 这 是 我 的 查询 语句 ， 我 要 怎样 才能 让 它 更 快 ?， 
这 可 能 是 最 遂 见 的 一 个 关于 SQL 的 同 题 了 ,但 它 缺 少 了 表 结 构 、 索 引 、 数 据 集 和 性 能 及 
优化 尺度 的 细 习 。 没 有 这 些 上 下 文 ， 任 何 的 解答 都 古 腾 测 。 
D “我 在 每 个 字段 上 都 定义 了 索引 ， 为 什么 它 设 有 变 得 更 快 ? “ 
这 和 契 “ 乱 用 索 ?5| 反 模 式 的 经 典 和 案例 。 你 答 坛 了 所 有 的 索 ?|， 但 你 是 在 摸 妓 打 乌 啊 ! 
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D “我 听 说 索引 会 使 数据 库 变 慢 ， 所 以 我 不 会 使 用 它 。 
就 像 很 多 开发 人 员 那 样 ， 你 在 找 一 个 提升 性 能 的 万 全 之 策 。 根 本 没有 这 样 的 好 事 啊 | 


13.4 合理 使 用 反 模式 


如 条 你 需要 设计 一 个 普通 用 途 的 数据 库 , 不 了 解 哪 些 查 询 是 需要 重点 优化 的 , 你 就 不 能 确定 
哪些 索引 是 最 好 的 。 你 可 能 需要 做 一 些 有 根据 的 猜测 。 你 有 可 能 会 漏 挥 一 些 能 有 所 帮助 的 索 51， 
也 有 可 能 会 创建 了 一 些 没 用 的 索引 。 但 你 必须 尽量 去 尝试 。 





低 分 离 率 索引 


分 离 率 是 衡量 数据 库 索 引 的 一 个 指标 。 它 是 一 张 表 中 ,所 有 不 重复 的 值 的 数量 和 总 记录 
条 数 之 比 : 

SELECT COUNT(CDISTINCT status) / 

COUNT(status) AS selectivity FROM Bugs; 

分 离 率 的 值 越 低 ， 索 引 的 效率 就 越 低 。 为 什么 ?我 们 可 以 想象 下 面 这 样 的 情况 。 

这 本 书 有 一 个 关于 不 同 数 据 类 型 的 索引 : 索引 中 的 每 一 条 记录 都 给 出 这 个 单词 出 现 的 页 
的 列表 。 如 果 一 个 单词 在 这 本 书 中 频繁 地 出 现 ， 就 可 能 会 有 很 多 页 码 。 要 找到 所 需要 找到 的 
部 分 ， 你 就 不 得 不 翻 到 这 个 列表 中 的 每 一 页 去 查看 。 

索引 本 身 并 不 会 觉得 存储 那些 出 现 频 率 很 高 的 单词 有 什么 负担 ,但 如 果 你 需要 频 演 地 在 
索引 和 页 面 间 未 回 查 找 所 需要 的 内 容 ， 你 可 能 就 跟从 藉 到 尾 读 了 这 本 书 没什么 区 别 。 

数据 库 的 索引 机 制 也 是 类 似 的 ， 如 果 一 个 给 定 的 值 出 现在 这 张 表 的 很 多 条 记录 中 
询 索 引 比 简单 地 扫描 一 遍 整 张 表 更 有 麻烦。 事实 上 ,使 用 这 个 索引 的 开销 可 能 比 不 使 用 
pe 

你 需要 时 刻 关 注 你 的 数据 库 中 索引 的 分 离 滨 ， 并 且 抛 弃 那 些 低 效 的 索引 。 


So 


13.5 解决 方案 : MENTOR 你 的 索引 


“乱用 索引 ”这 个 反 模式 古 关 于 随意 创建 或 抛弃 索引 的 ， 因 些 ， 让 我 们 来 分 析 一 下 一 个 数据 
库 ， 并 且 找 一 些 好 的 理由 来 使 用 或 者 丢弃 索引 |。 


你 可 以 使 用 好 记 的 MENTOR 方法 来 分 析 数 据 库 索 引 的 使 用 :测量 (Measure) ,解释 (Explain ) ， 
挑 先 (Nominate)， 测 试 (Test)， 优 化 (Optimize) 和 重建 (Rebuild ) 。 
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数据 库 不 一 定 是 瓶颈 


软件 开发 人 员 通 第 的 经 验 是 数据 库 总 是 程序 中 最 慢 的 部 分 ,并 且 是 性 能 问题 的 根源 。 然 
而 ， 事 实 并 非 如 此 。 

举例 来 说 ， 在 我 曾经 参与 过 的 一 个 项 目 中 ， 我 的 经 理 让 我 找 出 为 什么 程序 跑 得 这 么 慢 ， 
并 且 他 坚持 认为 是 数据 库 的 错 。 然而 在 我 用 了 一 个 性 能 测评 工具 去 检测 程序 代码 之 后 ,我 发 
现 它 用 了 80% 的 时 间 来 解析 HTML， 然 后 找 出 表单 字段 并 往 里 面 填 入 对 应 的 值 。 这 个 性 能 
问题 和 数据 库 完全 无 关 。 

在 对 性 能 问题 下 结论 之 前 , 先 用 一 些 分 析 工 具 来 测试 一 下 。 否则 你 可 能 就 在 做 一 些 过度 
1 


13.5.1 测量 


你 不 能 在 役 有 信息 的 情况 下 做 出 决定 。 大 多 数 数据 库 都 提供 了 一 些 方法 来 记录 执行 SQL 查 
询 的 时 耗 ， 因 此 可 以 以 此 来 定位 最 耗 时 的 查询 。 
口 Oracle 和 微软 的 SQL Server 都 有 SQL 跟踪 功能 和 工具 来 生成 并 分 析 相 应 报表 。 微 软 称 之 
为 SQL Server Profiler，Oracle 称 之 为 TKProf 。 
D MySQL 和 PostgreSQL 会 记录 耗 时 超过 一 个 特定 值 的 查询 请 求 。MySQL 称 之 为 “ 慢 查 询 ” 
日 志 , 其 配置 文件 中 的 1ong_query_time 项 默认 设 定 为 10 秒 。PostgreSQL 有 一 个 类 似 的 
配置 项 叫做 1og_min_duration_statement。 
D PostgreSQL 还 有 一 个 配套 的 工具 叫做 pgFouine， 它 能 帮助 你 对 碍 询 日 志 进 行 分 析 , 并 且 定 
位 出 那些 需要 格外 注意 的 查询 请 求 (http://pgfouine.projects.posteresql.org/)。 
一 旦 你 知道 程序 中 哪些 查询 耗 时 最 多 ， 束 知道 该 专注 于 哪 方面 的 优化 才能 获得 最 大 的 效果 。 
你 甚至 可 能 发 现 除了 有 某 一 个 特定 的 查询 比较 慢 之 外 , 其 他 的 都 很 快 , 那 这 个 查询 避 是 性 能 的 瓶 氏 。 
这 个 查询 就 是 你 该 优化 的 对 象 。 
如 果 一 个 查询 很 少 被 调用 , 那 即 使 它 是 单 次 调用 耗 时 最 多 的 一 个 , 也 不 见得 是 最 耗 时 间 的 查 
询 。 其 他 更 简单 一 点 的 查询 可 能 被 调用 得 很 频繁 ， 比 你 所 预期 的 还 要 频繁 ， 因 此 它们 所 花费 的 总 
时 间 束 会 更 多 。 专 注 于 这 些 能 够 让 你 事半功倍 的 查询 优化 。 
记 住 在 做 查询 性 能 测试 的 时 候 要 禁止 所 有 的 查询 结 末 绥 存 。 这 些 缓存 被 设计 用 来 绕 过 查询 过 
程 和 索引 使 用 ， 因 此 ， 如 采 不 禁止 这 些 缓存 ， 你 是 得 不 到 准确 信息 的 。 
在 部 署 程序 之 后 , 你 可 通过 进行 profile 分 析 来 得 到 更 准确 的 信息 。 要 在 实际 用 户 的 使 用 中 收 
集 综 合 数据 来 查看 到 底 在 哪些 地 方 所 花 的 时 间 是 最 长 的 。 你 应 该 时 刻 监 探 着 这 些 profile 数据 ,以 
防止 不 小 心 造成 了 一 个 新 的 瓶颈 。 
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记 住 在 分 析 完 了 之 后 要 关闭 profiler 或 者 降低 profiler 运行 的 频率 , 因为 这 些 工具 也 会 造成 额 


外 的 开销 。 


13.5.2 ”解释 





已 经 找到 耗 时 最 多 的 查询 请 求 了 , 接 下 来 要 做 的 事情 束 古 找 出 它 之 所 以 会 这 么 慢 鸭 原因。 每 


个 数据 库 都 使 用 一 种 优化 工具 为 每 次 查询 选择 合适 的 索引 。 你 可 以 让 数据 库 生 成 一 份 它 所 做 分 
析 的 报表 ， 我 们 称 之 为 查询 执行 计划 (QEP)。 


每 种 数据 库 的 请 求 QEP 的 语法 都 不 尽 相同 。 


数据 库 QEP 报 表 方 案 

IBM DB2 EXPLAIN, db2expln 命 令 , 或 Visual Explain 
Microsoft SQL Server SET SHOWPLAN XML, 或 Display Execution Plan 
MySQL EXPLAIN 

Oracle EXPLAIN PLAN 

PostgreSQL EXPLAIN 

SQLite EXPLAIN 





QEP 的 报表 中 包含 什么 或 者 报表 的 形式 是 什 么 ， 疫 有 统一 标准 。 通 前 来 说 ，QEP 会 告诉 你 


在 一 个 查询 中 需要 用 到 哪些 表 ,， 优 化 工具 是 怎么 选择 案 引 的 ， 以 及 按照 什么 顺序 访问 这 些 表 。 报 
表 可 能 也 会 包含 一 些 统计 信息 ， 比 如 每 一 阶段 查询 产生 多 少 行 记 隶 等 。 


让 我 们 来 看 一 个 简单 的 SQL 查询 并 请 求 QEP 报表 : 
Index-Shotgun/soln/explain.sql 


EXPLAIN SELECT Bugs.* 

FROM Bugs 

JOIN (BugsProducts JOIN Products USING (product_1d)) 
USING (bug_1id) 

WHERE summary LIKE “%crash% 
AND product name = 'Open RoundFyT 1e- 

ORDER BY date reported DESC ; 


13-1 为 MySQL 的 QEP 报 告 ,，key 这 一 列表 明 这 个 查询 仅 使 用 了 BugsProducts 表 的 主键 





索引 。 同时， 最 后 一 列 的 额外 信息 表明 这 个 查询 会 在 一 张 临时 表 中 对 数据 进行 排序 ， 没有 任何 索 
中 做 人 人 


LIKE 表达 式 强 制 在 Bugs 表 中 进行 全 表 遍 历 ， 在 Products.product_name 列 上 没有 索引 |。 


我 们 可 以 通过 在 product_name 上 创建 一 个 新 的 索引 以 及 改 用 全 文 搜索 的 方案 来 优化 这 个 查询 。 








中 参考 第 17 章 内 容 。 
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toble fiype jpossible keys hey fhoy len [ref Jrows fored ei 


Using where; Using 


Using index 


Using where; Using join 


buffer 





13-1 MySQL 碍 询 执行 计划 


QEP 的 信息 是 由 数据 库 开发 商 决定 的 ,在 本 例 中 ,你 应 该 仔细 阅读 MySQL 手册 中 “Optimizing 
Queries with EXPLAIN” 一 章 中 的 说 明 来 理解 对 应 的 报表 的 含义 ”。 


13.5.3 ”挑选 





现在 已 经 有 了 查询 优化 工具 的 QEP 报表 ， 你 应 该 仔细 地 查找 那些 没有 使 用 索引 的 查询 操作 。 


有 些 数据 库 会 用 一 些 工具 来 做 这 件 事 ， 它 们 会 收集 查询 统计 信息 并 且 提 出 一 系列 的 修改 建 


议 ， 包 括 创建 那些 被 你 漏 掉 但 能 起 到 较 好 效 末 的 索引 。 比 如 : 


3 


D IBM DB2 Design Advisor; 

D Microsotft SQL Server Database Engine Tuning Advisor:; 
D MySQL Enterprise Query Analyzer; 

D Oracle Automatic SQL Tuning Advlsor。 





即使 没有 上 自动 化 工具 , 你 也 可 以 学 习 如 何 辨 识 一 个 索引 是 否 有 利于 提高 搜索 效率 。 你 需要 仔 
细 阅 读 你 所 使 用 数据 库 的 手册 来 更 好 地 理解 QEP 报告 。 


索引 覆盖 

如 果 一 个 索引 包含 了 我 们 所 需要 的 所 有 列 ， 那 就 不 需要 再 从 表 中 获取 数据 了 。 

想象 一 下 ， 如 果 电话 簿 的 条 目 中 只 包含 一 个 页 码 ， 在 你 找到 一 个 名 字 之 后 ， 你 不 得 不 翻 
到 对 应 的 页 上 才能 得 到 所 需要 的 号 码 。 如 果 将 这 个 过 程 整合 为 单 步 操 作 会 更 合情合理 。 由 于 
电话 簿 是 排序 的 ,所 以 查找 一 个 名 字 是 很 快 的 ,然后 在 一 个 条 目 中 可 以 再 包含 一 个 字段 存储 
电话 号 码 ， 甚 至 存储 地 址 。 

这 就 是 索引 秦 盖 的 作用 。 你 可 以 定义 让 一 个 索引 包含 额外 的 列 , 即使 这 些 列 对 于 这 个 索 
引 来 说 并 不 是 必须 包含 的 ， 


@ http://dev.mysql.com/doc/refman/5.1/en/using-explain.htm!l, 
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CREATE INDEX BugCovering ON Bugs 
(status, bug_id, date reported, reported by, summary); 


如 果 你 查询 的 列 前 包含 在 这 个 索引 的 数据 结构 中 ， 数 据 库 就 可 以 通过 只 查询 索引 生成 结果 。 


SELECT status, bug_id, date reported, summary 
FROM Bugs WHERE status = “OPEN  ; 


数据 库 并 不 需要 去 查询 对 应 的 表 。 虽 然 你 不 能 在 任何 地 方 都 使 用 索引 履 盖 ， 但 只 要 使 用 它 ， 
对 性 能 来 说 就 是 一 个 极 大 的 提升 。 


13.5.4 测试 


这 一 步 非 第 重要 : 在 创建 完 索 5 之 后 ， 需 要 重新 跟踪 那些 得 询 。 需 要 确认 你 的 改动 确实 提升 
了 性 能 ， 然 后 不 能 确定 工作 完成 了 。 

你 可 以 使 用 这 一 步骤 来 给 老板 留 下 好 印象 , 并 证 明 你 所 作 的 优化 是 有 效 的。 你 肯定 不 希望 周 
报 上 写 道 :“ 我 尝试 了 每 个 我 想到 的 办 法 来 解决 程序 的 性 能 问题 , 然后 我 们 只 能 等 等 看 反馈 ……… 
相反 ， 你 现在 有 机 会 这 么 写 周报 :“ 我 发 现 可 以 在 一 个 高 活跃 度 的 表 上 创建 一 个 新 的 索 5|， 并 且 
我 将 核心 查询 性 能 提高 了 38%。 


13.5.5 优化 

索 35| 是 小 型 的 、 频 营 使 用 的 数据 结构 ， 因 而 很 适合 将 它们 和 常 驻 在 内 存 中 。 内 存 操作 的 性 能 是 
磁盘 VO 操作 的 好 几 倍 。 

数据 库 服 务 允 许 你 配置 缓存 所 需要 的 系统 内 存 大 小 。 大 多 数 数据 库 的 默认 配置 都 很 小 ， 从 而 
能 保证 数据 库 在 大 部 分 操作 系统 上 都 正常 工作 。 通 茹 情况 下 我 们 需要 调 高 这 个 缓存 大 小 的 设置 。 

需要 使 用 多 少 内 存 做 为 案 引 绥 存 ? 这 个 回 题 没 有 标准 答案 , 因为 它 取 决 于 你 的 数据 库 的 规模 
和 服务 器 的 内 存 大 小 。 

使 用 索引 预 载 入 的 方法 可 能 要 比 通 过 数据 库 活 动 本 身 将 最 频繁 使 用 的 数据 与 索引 放 和 缓存 
更 有 效 一 点 。 比 如 ,在 MySQL 中， 使 用 LOAD INDEX INTO CACHE 语句 。 











13.5.6 ”重建 





索 5| 在 平衡 的 时 候 其 效率 最 高 ， 当 你 更 新 或 者 删除 记录 时 ， 索 引 就 未 浙 变 得 不 平衡 ， 就 如 
同文 件 系统 随 着 时 间 的 推移 会 产生 很 多 磁盘 碎 户 一 样 。 在 实际 运行 中 ， 你 可 能 看 不 出 一 个 平衡 
索引 和 一 个 有 些 不 平衡 的 索引 的 区 别 。 但 我 们 想 要 最 大 限度 地 使 用 索引 ， 因 此 要 定期 对 索引 进 
行 维 护 。 
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就 像 索 引 的 很 多 其 他 特性 一 样 ， 每 个 不 同 的 数据 库 都 使 用 上 自己 特有 的 术语 、 语 法 和 功能 。 


数据 库 索引 维护 命令 

IBM DB2 REBUILD INDEX 

Microsoft SQL Server ALTER INDEX ... REORGANIZE, ALTER INDEX ... REBUILD, or DBCC DBREINDEX 
MySQL ANALYZE TABLE or OPTIMIZE TABLE 

Oracle ALTER INDEX ... REBUILD 

PostgreSQL VACUUM or ANALYZE 

SQLite VACUUM 





多 久 需 要 重建 一 次 索 51? 你 可 能 听 到 诸如 “每 周一 次 ”这 样 空 沁 的 回答 ,但 事实 上 对 于 不 同 
的 程序 来 说 并 没有 统一 的 答案 。 具 体 的 时 间 取 决 于 你 对 指定 的 表 所 做 的 会 引起 不 平衡 操作 的 频 
率 。 同 时 也 取决 于 这 张 表 有 多 大 以 及 理想 状态 的 索引 | 是 否 那么 的 重要 。 伦 上 几 个 小 时 重建 一 张 很 
大 但 很 少 使 用 的 表 的 索引 ， 只 获得 了 1% 的 性 能 提升 ， 这 样 做 值得 吗 ? 所 有 的 判断 都 需要 你 来 做 
决定 ， 因 为 你 是 最 了 解 这 些 数 据 和 数据 操作 需求 的 人 。 

很 多 关于 最 优化 使 用 索引 的 知识 邦 古 根据 不 同 数 据 库 而 论 的 , 因此 你 需要 仔细 研究 所 使 用 的 
数据 库 。 你 手 上 所 有 的 和 资源 包括 数据 库 手 册 、 书 籍 和 杂志 、 博 客 文章 和 邮件 列表 ， 以 及 很 多 目 己 
的 经 验 。 节 重要 的 规则 是 千 万 别 瞎 猜 索 ?| 的 使 用 方法 。 


了 解 你 的 数据 ， 了 解 你 的 查询 请 求 ， 然 后 MENTOR 你 的 索引 。 


到 灵 社 区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


全 -二 
第 大 章 


对 未 知 的 必 惧 


就 像 我 们 所 知道 的 那样 ， 有 一 些 众所周知 的 事情 ,我 们 知道 自己 已 经 了 解 了 。 我们 
也 知道 ， 有 一 些 未 知 的 事情 ， 我 们 知道 自己 还 不 了 解 。 但 还 有 些 没 人 知道 的 事情 ,我们 
并 不 知 我 们 还 一 无 所 知 。 

唐纳德 。 拉 姆 斯 菲尔德 


在 我 们 的 交 例 Bug 数据 库 中 ，Accounts 表 有 first_name 和 1ast_name 两 列 。 你 可 以 通过 
使 用 字符 串 链 接 操 作 将 这 两 个 字段 合并 成 用 户 的 全 名 。 








Fear-Unknown/intro/full-name.sql 
SELECT first name || " ”| last name AS full_name FROM Accounts ; 
假设 老板 让 你 修改 一 下 数据 库 ， 加 上 用 户 的 中 则 名 的 缩写 。( 如 有 果 两 个 用 户 的 名 和 姓 是 一 
样 的 ， 通 过 中 间 名 的 缩写 能 够 减少 误解 .) 这 是 个 很 简单 的 话 。 你 也 可 以 手动 加 了 一 些 用 户 的 
中 间 名 缩写 。 
Fear-Unknown/intro/middle-name.sql 


ALTER TABLE Accounts ADD COLUMN middle initial CHAR(2); 


UPDATE Accounts SET middle initial = 'J.' WHERE account 1d = 123; 
UPDATE Accounts SET middle initial = 'C.' WHERE account 1d = 321; 
SELECT first name || " " || middle initial || " " || last name AS full_name 


FROM Accounts ; 


突然 ,程序 不 显示 任何 名 字 了 。 事 实 上 , 看 了 一 下 之 后 ， 你 发 现 并 不 都 如 此 。 只 有 那些 填 了 
中 间 名 缩写 的 用 户 的 名 字 能 正常 显示 ， 其 他 人 的 名 字 都 是 空 的 。 


其 他 人 的 名 字 怎 么 了 ? 你 能 在 老板 发 现 并 开始 恐慌 地 猜测 你 是 不 是 和 了 数据 之 前 修复 这 个 
此 误 吗 ? 
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14.2 反 模 式 : 将 NULL 作为 普通 的 值 ， 反 之 亦 然 如 127 
14.1 目标 : 辨别 悬空 值 
不 可 避免 地 ,你 的 数据 库 中 总 会 有 一 些 字段 是 没有 值 的 。 不 管 是 插入 一 个 不 完整 的 行 ， 还 是 
有 些 列 可 以 合法 地 拥有 一 些 无 效 值 。SQL 支持 一 个 特殊 的 空 值 ， 就 是 我 们 所 熟知 的 NULL。 
有 很 多 在 SQL 的 表 和 和 查询 中 有 效 使 用 空 值 的 途径 。 


D 你 可 以 在 添加 一 条 记录 时 ,使 用 NULL 代 符 那些 还 不 确定 的 值 ， 比 如 一 个 在 职员 工 的 离职 
时 间 。 

D 一 个 给 定 的 列 如 和 没有 合适 的 值 ， 可 以 在 对 应 的 行 中 使 用 NULL。 比 如 对 于 一 辆 完全 徘 电 
力 驱 动 的 车 ， 它 的 燃油 消耗 比 就 屹 无 营 义 。 

口 当 传 人 参数 无 效 时 ， 一 个 函数 的 返回 值 也 可 以 古 NULL， 比 如 DAY('2009-12-32')。 

在 外 联结 查询 中 ，NULL 被 用 来 当做 未 匹配 的 列 的 占 位 符 。 


本 音 的 目的 就 是 弄 清楚 如 何 编写 那些 包含 NULL 的 查询 。 
14.2 反 模 式 : 将 NULL 作为 普通 的 值 ， 反 之 亦 然 


很 多 开发 人 员 都 对 SQL 中 NULL 的 行为 感到 荡然 无 措 。SQL 将 NULL 当做 一 个 特殊 的 值 ， 不 
同 于 0、false 或 者 空 字符 串 ， 这 一 点 和 大 多 数 的 编程 语言 都 不 同 。 大 多 数 的 数据 库 都 遵循 这 种 
SQL 标准 ， 然 而 在 Oracle 和 Sybase 中，NULL 的 意义 是 长 度 为 0 的 空 字符 串 。NULL 这 个 值 也 有 一 
些 特 殊 的 行为 。 


14.2.1 在 表达 式 中 使 用 NULL 


让 人 奇怪 的 是 ， 在 一 些 值 为 NULL 的 列 上 进行 计算 所 得 到 的 结 末 。 比 如 说 ， 很 多 开发 人 员 都 











返回 的 结 采 还 征 NULL， 并 非 10。 


Fear-Unknown/anti/expression.sql 


SELECT hours + 10 FROM Bugs; 
NULL 和 0 是 不 同 的 。 比 未 知 数 大 10 的 数 还 是 未 知 数 。 


NULL 和 空 字 符 串 也 是 不 一 样 的 。 将 一 个 字符 串 和 标准 SQL 中 的 NULL 联合 起 来 的 结果 还 是 
NULL (忽略 Oracle 和 Sybase 中 的 行为 )。 


NULL 和 FALSE 也 是 不 同 的 。AND、OR 和 NOT 这 三 个 布尔 操作 如 果 涉 及 NULL， 其 结果 也 让 很 
多 人 感到 困惑 。 
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128 区 第 14 章 ， 对 未 知 的 恐惧 
14.2.2 ”搜索 允许 为 空 的 列 
如 下 查询 仪 返回 assigned_to 为 123 的 行 ， 不 包含 别 的 值 或 者 NULL: 


Fear-Unknown/anti/search.sql 





SELECT * FROM Bugs WHERE assigned to = 123; 
你 可 能 会 完 得 如 下 查询 会 运 回 上 面 那 个 查询 的 补 集 ， 也 就 古 所 有 之 前 查询 没有 返回 的 行 


Fear-Unknown/anti/search-not.sql 





SELECT * FROM Bugs WHERE NOT (assigned to = 123); 
然而 ,这 两 个 查询 都 不 会 返回 assigned_to 是 NULL 的 记录 。 任何 和 NULL 的 比较 都 返回 “未 
知 ， 既 不 是 TRUE 也 不 是 FALSE。 即 使 NULL 的 相反 值 也 是 NULL。 
下 面 这 个 错误 是 在 查询 NULL 或 者 非 NULL 值 时 常 犯 的 : 
Fear-Unknown/anti/equals-null.sqgl 


SELECT * FROM Bugs WHERE assigned to = NULL; 

SELECT * FROM Bugs WHERE assigned to <> NULL; 

WHERE 子 名 的 盘 选 允 辑 是 当 其 条 件 的 返回 值 为 TRUE 时 选择 该 记录 ,但 和 NULL 比较 永远 得 
不 到 TRUE， 相 应 地 ,返回 的 古 “ 未 知 。 无 论 比 较 的 逻辑 是 相等 还 是 不 等 ， 返 回 的 结 来 还 下 未 
知 ， 当 然 未 知 不 等 于 TRUE。 之 前 的 所 有 查询 请 求 部 没 办 法 锋 得 assigned_to 为 NULL 的 
记录 。 


14.2.3 ”在 查询 参数 中 使 用 NULL 


在 参数 化 的 SQL 查询 表达 式 中 使 用 NULL 进行 查询 时 ， 碰 到 使 用 NULL 作为 普通 值 的 列 也 非 
前 地 不 方便 。 


Fear-Unknown/anti/parameter.sql 





SELECT * FROM Bugs WHERE assigned to = ?; 


上 述 查 询 在 传 入 一 个 普通 的 整形 时 会 返回 你 所 期 望 的 值 , 但 你 不 能 使 用 NULL 作为 参数 传 入 。 
14.2.4 ”避免 上 述 问题 


处 理 NULL 会 使 查询 变 得 更 加 复杂 ， 很 多 软件 开发 人 员 就 会 选择 在 数据 库 中 禁止 NULL。 取 而 
代 之 的 是 ， 他 们 选择 一 个 普通 的 值 来 标记 “未 知 ”或 者 “无 效 ”。 
“我 们 痛恨 NULL! ” 
杰克 ， 一 个 软件 开发 人 员 ， 描述 了 他 的 客户 端 开 发 人 员 要 求 他 屏蔽 数据 库 中 
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所 有 的 NULL。 他 们 的 解释 就 是 简单 的 “我 们 痛恨 NULL 。NULL 的 存在 会 导致 他 们 
的 程序 代码 出 锚 。 术 克 询 问 我 该 用 哪个 值 来 代 兰 NULL 标记 悬空 值 。 
我 告诉 杰克 ，NULL 的 作用 正 是 用 来 表示 悬空 值 或 者 无 效 值 。 无 论 他 选择 别 的 
什么 值 来 标记 一 个 悬空 值 ， 都 要 修改 程序 代码 来 对 这 个 值 进行 特殊 处 理 。 
杰克 的 客户 端 开发 人 员 对 待 NULL 的 态度 是 完全 错误 的 。 类 似 地 ， 我 可 以 坦率 
地 说 ， 我 也 不 喜欢 写 代 码 来 处 理 将 零 作 为 除数 的 问题 ,但 这 并 不 是 不 使 用 零 的 合理 
理由 。 
这 样 做 的 实际 危害 在 哪里 呢 ? 来 看 如 下 的 例子 ,我 们 将 assigned_to 这 一 列 再 明 为 NOT NULL: 
Fear-Unknown/anti/special-create-table.sql 


CREATE TABLE Bugs ( 

bug_id SERIAL PRIMARY KEY, 

-- other columns 

assigned_to BIGINT UNSIGNED NOT NULL ， 

hours NUMERIC(9,2) NOT NULL ， 

FOREICN KEY (assigned to) REFERENCES Accounts(account_1d) 
7 


假设 我 们 使 用 -1 表示 一 个 未 知 的 值 。 
Fear-Unknown/anti/special-insert.sql 
INSERT INTO Bugs (assigned to, hours) VALUES (-1, -1); 
hours 这 一 列 是 数字 ,因此 你 定义 某 一 个 特殊 的 数字 表示 “未 定义 ”。 这 个 数字 在 这 列 中 必须 
不 具有 任何 含义 ， 所 以 你 选择 了 一 个 负数 。 但 是 -1 这 个 值 在 执行 SUM 或 者 AVG 的 时 候 会 导致 计 
算 结 来 错误 。 因 而 你 必须 在 计算 时 使 用 男 一 个 条 件 判 断 来 去 除 这 些 列 , 这 些 额 外 的 工作 都 症 因为 
你 要 避免 使 用 NULL 所 带 来 的 。 
Fear-Unknown/anti/special-select.sql 


SELECT AVG( hours ) AS average hours per_bug FROM Bugs 
WHERE hours <> -1; 


在 男 一 列 中 ，-1 可 能 是 一 个 有 意义 的 值 ， 因 此 你 不 得 不 根据 每 一 列 的 定义 和 取 值 范围 逐个 
选择 一 个 不 同 的 值 。 你 还 需要 记 住 或 者 将 这 些 特殊 值 写 成 文档 。 这 都 给 项 目 增加 了 过 多 的 复杂 度 
和 不 必要 的 工作 。 

再 来 看 assigned_to 列 。 这 是 一 个 指 问 Accounts 表 的 外 键 。 当 一 个 Bug 被 提交 进 系 统 但 还 
没有 指派 给 任何 人 去 处 理 , 应 该 用 哪个 非 NULL 的 值 来 表示 这 个 逻辑 呢 ? 任何 一 个 非 NULL 的 值 都 
必须 指 癌 Accounts 表 中 的 一 条 记录 ， 因 此 你 需要 在 Accounts 表 中 插入 一 条 占 位 符 似 的 记录 ， 
表示 “没有 人 ”或 者 “未 指派 ”。 为 了 让 你 能 将 一 个 Bug 指派 给 一 个 人 而 创建 这 样 一 个 没有 意义 
的 账号 看 上 去 非常 地 可 笑 。 











当 你 将 一 列 声 明 为 NOT NULL 时 ， 也 就 是 说 ， 这 列 中 的 每 一 个 值 都 必须 存在 且 征 有 意义 的 。 
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比如 说 ，Bugs ,reported_by 这 一 列 必须 有 一 个 值 ， 因 为 每 个 Bug 都 是 由 某 个 人 报告 的 。 但 一 个 
Bug 可 能 暂时 还 没有 指派 给 任何 人 外 理 。 甚 空 的 值 应 该 用 NULL 来 表示 。 


14.3 ”如 何 识别 反 模 式 


如 果 你 发 现 自己 或 者 团队 中 有 人 描述 了 如 下 事件 ， 可 能 就 是 没有 正确 地 处 理 NULL。 

口 “我 要 怎么 将 assigned_to (或 别 的 列 ) 中 没有 值 的 列 取出 来 ? ” 
你 不 能 对 NULL 使 用 等 号 。 我 们 在 本 章 的 后 半 部 分 将 会 看 到 如 何 使 用 IS NULL 操作 符 。 

口 “我 能 在 数据 库 中 看 到 用 户 的 名 字 ， 但 是 在 程序 显示 的 时 候 ， 全 名 就 是 空 的 。” 
问题 可 能 是 由 于 你 将 字符 串 和 NULL 进行 了 拼接 的 操作 ， 返 回 的 结果 还 是 NULL。 

口 “ 这 份 报告 中 这 个 项 目的 总 工作 时 间 仅 包括 了 很 小 一 部 分 我 们 设 定 了 优先 级 的 Bug!” 
你 的 统计 时 间 的 合计 查询 可 能 包含 了 一 个 WHERE 子 句 , 其 中 的 表达 式 会 因为 priority 为 
null 而 不 会 返回 TRUE。 当 你 使 用 “不 等 于 ”操作 的 时 候 要 格外 注意 异常 值 。 比 如 ， 对 于 
priority 的 值 为 NULL 的 记录 ，priority <> 1 这 个 表达 式 就 不 会 返回 真 。 

口 “现在 的 情况 是 ， 我 们 不 能 再 使 用 之 前 在 Bugs 表 中 用 来 表示 未 知 的 那个 字符 串 了 ， 因 此 我 
们 要 开 个 会 讨论 该 用 哪个 新 的 特殊 值 ， 再 评估 一 下 开发 时 间 以 及 数据 转换 的 时 间 。 
这 是 使 用 一 个 特殊 标记 值 的 常见 后 果 ， 这 个 特殊 值 很 有 可 能 会 变 得 合法 。 最 终 你 可 能 会 
发 现 需要 使 用 这 个 值 的 字面 意义 而 不 是 标记 意义 。 

















NULL 也 是 可 关联 的 吗 


关于 SQL 中 的 NULL 也 有 一 些 争 论 。 创 立 关系 理论 的 计算 机 和 村 学 家 EE. F.Codd 认 为 ， 使 
用 NULL 来 标记 悬空 值 是 有 必要 的 。 然 而 ，C. 本 Date 展示 了 标准 SQL 中 定义 的 NULL 的 行为 
在 某 些 特 殊 情 况 下 和 关系 远 辑 相 违 背 。 

事实 是 大 多 数 编程 语言 都 没有 完美 地 实现 计算 机 村 学 的 那些 理论 。 无 论 如 何 SQL 都 支持 
NULL。 我们 已 经 发 现 了 一 些 危 害 ， 但 你 可 以 学 着 如 何 找 出 这 些 危 害 从 而 更 有 效 地 使 用 NULL， 


要 六 识 出 对 NULL 的 错 误 使 用 古 比 较 困 难 的 事情 。 在 测试 阶段 ， 一 些 蚀 误 可 能 不 会 发 生 ， 尤 
其 是 如 来 你 漏 掉 了 一 些 边界 条 件 的 测试 而 仅仅 构造 了 一 些 简 单 的 测试 数据 。 然 而， 当 程 序 用 于 实 
际 生 产 时 ， 所 产生 的 数据 可 能 是 你 不 曾 预 料 到 的 。 如 采 一 个 NULL 存在 于 数据 中 ， 产 生 错 误 束 是 
一 个 时 间 癌 题 了 。 


14.4 ”合理 使 用 反 模 式 


使 用 NULL 并 不 是 反 模 式 ， 反 模式 是 将 NULL 作为 一 个 普通 值 处 理 或 者 使 用 一 个 普通 的 值 来 
取代 NULL 的 作用 。 
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有 一 种 情况 可 以 将 NULL 视 为 普通 值 ， 那 就 是 导入 或 者 导出 数据 的 时 候 。 在 一 个 以 人 辟 弓 分 割 
的 文本 文件 中 ， 所 有 的 值 都 必须 是 可 读 的 文本 。 比 如 ，MySQL 的 mysqlimport 工具 在 从 文本 文 
件 中 导入 数据 时 ， 使 用 \W 代 表 NULL。 

类 似 地 ， 用 户 不 能 直接 输入 一 个 NULL。 程 序 的 输入 端 可 能 会 使 用 一 些 特殊 处 理 来 引导 用 户 
输入 NULL。 比 如 ,微软 .NET2.0 及 以 上 版 本 ,为 Web 界面 提供 了 一 个 叫做 ConvertEmptyString 
ToNu11 的 方法 。 参 数 和 绑 定 字 段 会 自动 地 将 空 字符 串 转 换 成 NULL。 

最 后 ， 如 来 需要 文 持 多 个 不 同 的 世 空 值 时 ，NULL 也 不 起 作用 。 比 如 说 ， 想 要 将 一 个 Bug 分 
为 “从 未 被 指派 ”和 “被 指派 给 一 个 离开 项 目 组 的 人 ”"， 在 这 种 情况 下 你 不 得 为 每 种 状态 使 用 不 
同 的 值 。 


14.5 ”解决 方案 : 将 NULL 视 为 特殊 值 


大 多 数 使 用 NULL 的 问题 都 是 源 自 于 对 SQL 的 三 值 逻 辑 的 误解 。 对 于 习惯 了 传统 的 
true/false 逻辑 程序 员 来 说 ， 这 可 是 一 个 不 小 的 挑战 。 不 过 只 要 稍微 研究 一 下 ， 你 就 能 正确 地 
在 SQL 中 处 理 NULL。 


14.5.1 在 标量 表达 式 中 使 用 NULL 


假设 斯 坦 30 岁 ， 而 奥利弗 的 年 龄 未 知 。 如 末 我 问 你 到 的 是 斯 坦 大 还 十 奥利弗 大 ， 你 只 能 回 
丛 :“ 我 不 知道 。 如 本 我 问 你 斯 坦 是 不 是 和 奥利弗 一 样 大 ， 你 还 是 只 能 回 谷 :“ 不 知道 。 如 本 我 
问 你 他 们 两 个 加 起 来 有 多 大 ， 你 的 答案 依旧 如 此 。 

假设 查理 的 年 龄 也 是 未 知 。 如 琳 我 回 你 奥利弗 和 查理 是 不 是 一 样 大 ， 你 的 答案 还 是 “不 知 
道 。 这 就 古 为 什么 NULL = NULL 的 结 采 征 NULL。 


下 表 列 举 了 一 些 程序 员 期 望 得 到 某 种 结 末 ， 但 事实 却 不 如 人 苇 的 情况 。 























表达 式 期 望 值 实际 值 有 原 

NULL = 0 TRUE NULL NULL 不 是 0 

NULL = 12345 FALSE NULL 如 和 朱 未 指定 值 和 所 给 值 相等 则 未 知 
NULL <> 12345 TRUE NULL 不 相等 则 未 知 

NULL + 12345 12345 NULL NULL 不 是 0 

NULL || ‘string' " String” NULL NULL 不 是 空 字 符 串 

NULL = NULL TRUE NULL 未 指定 值 和 为 一 个 值 相 等 则 未 知 
NULL <> NULL FALSE NULL 如 不 同 则 未 知 
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当然 ， 这 些 例 子 并 不 仅仅 表示 直接 使 用 NULL 这 个 关键 字 的 情况 ， 它 们 同样 也 适用 于 那些 返 
回 值 为 NULL 的 表达 却 。 


14.5.2 ”在 布尔 表达 式 中 使 用 NULL 


理解 NULL 在 布尔 表达 式 中 行为 的 关键 点 在 于 ， 要 明白 NULL 既 不 是 TRUE 也 不 是 FALSE。 
下 表 列 举 了 一 些 程序 员 所 期 望 得 到 某 种 结果 ， 但 事实 却 不 如 人 意 的 情况 。 





表达 式 期 望 值 实际 值 原 

NULL AND TRUE FALSE NULL NULL 不 是 FALSE 

NULL AND FALSE FALSE FALSE 任何 值 AND FALSE 是 伪 值 
NULL OR FALSE FALSE NULL NULL 不 是 FALSE 

NULL OR TRUE TRUE TRUE 任何 值 OR TRUE 是 真 值 
NOT (NULL) TRUE NULL NULL 不 是 FALSE 


一 个 NULL 值 当 然 不 是 TRUE， 同 样 也 不 是 FALSE。 如 果 是 FALSE， 对 一 个 NULL 使 用 NOT 操作 
符 ， 则 应 该 返回 TRUE， 但 事实 是 NOTCNULL) 依 旧 返 回 一 个 NULL。 这 样 的 行为 让 那些 想 要 在 布尔 
表达 式 中 使 用 NULL 的 人 感到 很 困惑 。 


14.5.3 ”检索 NULL 值 


由 于 等 于 或 者 不 等 于 操作 在 对 NULL 进行 比较 时 都 不 会 返回 TRUE, 你 就 需要 使 用 别 的 操作 来 
检索 NULL。 老 的 SQL 标准 定义 了 一 个 IS NULL 的 断言 ， 在 一 个 给 定 的 操作 值 为 NULL 时 ， 它 将 返 
回 TRUE。 与 之 对 应 的 ，IS NOT NULL 在 操作 值 是 NULL 时 ， 返 回 FALSE。 


Fear-Unknown/soln/search.sdql 


SELECT * FROM Bugs WHERE assigned to IS NULL ; 
SELECT * FROM Bugs WHERE assigned to IS NOT NULL ; 


在 SQL-99 标准 中 ， 额 外 定义 了 一 个 比较 断言 IS DISTINCT FROM。 这 个 断言 的 行为 模式 类 似 
于 原来 的 <> 操 作 符 。 不 同 的 征 ， 在 处 理 操 作 数 为 NULL 时 它 依旧 会 返回 TRUE 或 FALSE。 
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各 误 的 方法 正确 的 结 


在 如 下 的 情况 中 ， 一 个 允许 为 空 的 列 的 行为 基于 巧合 而 得 到 了 正确 的 结果 

SELECT * FROM Bugs WHERE assigned to <> “NULL  ; 

这 里 允许 为 空 的 assigned_to 列 正 用 来 和 'NULL' 这 个 字符 串 进 行 比较 (注意 引号 ) 而 
不 是 和 NULL 这 个 关键 字 上 比较 。 

当 assigned_to 为 NULL 时 ， 和 字符 串 "NULL ' 的 比较 结果 不 为 TRUE. 这 一 条 记录 就 从 查 

结果 中 排除 了 ， 而 这 正 是 程序 员 所 期 望 的 。 

其 余 的 情况 是 ， 一 个 整 型 的 列 和 字符 串 'NULL 进行 比较 。 像 'NULL ' 这 样 的 字符 串 在 大 
多 数 数据 库 中 都 被 视 为 0， 而 assigned_to 的 大 多 数值 都 大 于 0。 这样 的 值 就 不 等 于 一 个 字 

符 串 ， 因 此 在 结果 集中 就 有 了 这 条 记录 。 

因此 ， 由 于 犯 了 另 一 个 常见 的 错误 一 一 在 NULL 关键 字 上 使 用 了 引号 一 一 一 些 程序 员 可 
能 无 意 间 就 得 到 了 他 们 想 要 的 结果 。 不 垃 的 是 ,这 样 的 巧合 并 不 是 总 发 生 ， 比 如 WHERE 
assigned_to= NULL  。 








这 个 断言 能 让 你 在 进行 比较 操作 之 前 不 用 再 编写 元 长 的 表达 式 判 断 IS NULL。 如 下 两 个 查询 
是 等 价 的 : 
Fear-Unknown/soln/is-distinct-from.sql 


SELECT * FROM Bugs WHERE assigned to IS NULL OR assigned to <> 1; 


SELECT * FROM Bugs WHERE assigned to IS DISTINCT FROM 1; 
你 可 以 和 查询 参数 一 起 使 用 这 个 断言 ， 即 使 传 入 值 就 是 一 个 NULL: 


Feqr-Unknown/soln/is-distinct-from-parameter.sqgl 

SELECT * FROM Bugs WHERE assigned to IS DISTINCT FROM ?; 

每 个 数据 库 对 IS DISTINCT FROM 的 支持 是 不 同 的 。PostgreSQL 、IBM DB2 和 Firebird 直接 
支持 它 ，Oracle 和 Microsoft SQL Server 暂时 还 不 支持 。MySQL 提供 了 一 个 专 有 的 表达 式 <=>， 
它 的 工作 逻辑 和 IS NOT DISTINCT FROM 一 致 。 





14.5.4 声明 NOT_ NULL 的 列 





如 果 NULL 会 破坏 程序 逻辑 或 者 NULL 本 身 就 是 毫 无 意义 的 , 那 我 推荐 你 在 定义 对 应 的 列 时 加 
上 NOT NULL 约束 。 让 数据 库 来 帮 你 确保 约束 的 实行 比 自 己 写 代码 可 徘 得 多 。 

比如 说 , 在 Bugs 表 中 任意 记录 的 date_reported、reported_by 和 status 这 几 列 的 值 都 应 
该 是 非 NULL 的 。 类 似 地 ， 在 Comments 这 张 子 表 中 也 必须 有 一 个 韭 NULL 的 bug_id 列 ， 指 同一 
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个 切实 存在 的 Bug。 你 应 该 在 声明 这 些 列 的 时 候 都 加 上 NOT NULL 选项 。 


人 DEFAULT 值 , 这样 一 来 当 在 执行 插入 操作 时 即使 省 略 了 茶 
一 列 ， 也 能 获得 一 个 非 NULL 的 值 。 这 样 的 建议 也 并 不 是 通用 的 。 比 如 说 ，Bugs. reported_by 应 
该 总 是 非 NULL 全 如 果 要 定义 默认 值 , 应 该 用 哪个 值 ? 对 于 一 个 在 逻辑 上 没有 默认 值 的 列 来 说 ， 
声明 一 个 NOT NULL 约束 是 很 合理 、 很 常见 的 。 


14.5.5 ”动态 默认 值 


在 一 些 查 询 请 求 中 ， 你 需要 强制 让 某 一 列 或 者 某 个 表达 式 返 回 非 NULL 的 值 ， 从 而 让 查询 逻 
辑 变 得 更 简单 , 但 又 不 想 将 这 个 值 存 下 来 。 你 所 需要 的 仅仅 是 在 特定 的 请 求 时 对 一 个 给 定 的 列 临 
时 设置 一 个 默认 值 的 方法 。 为 此 可 以 使 用 COALESCEQ 函 数 。 这 个 函数 氨 受 一 系列 的 值 作为 入 参 ， 
并 且 返 回 第 一 个 非 NULL 的 参数 。 


在 本 草 最 开始 所 描述 的 拼接 用 户 名 字 的 案例 中 ,可 以 使 用 COALESCEQ 〇 函数 来 写 一 个 表达 式 .， 
使 用 一 个 空格 代 赫 中 名 缩写 , 这 样 即使 中 名 缩写 是 NULL, 返回 的 结果 也 始终 是 一 个 非 NULL 的 中 
四 名 缩写 ， 从 而 最 终 的 结果 不 会 变 成 NULL。 


Fear-Unknown/soln/coalesce.sql 





SELECT first name || COALESCE(” ' || middle initial || "', " ') || last_name 
AS full_name 
FROM Accounts ; 


COALESCEQO 是 一 个 SQL 标准 函数 。 一 些 数据 库 使 用 了 别 的 函数 来 实现 这 个 功能 ， 诸 如 
NVLO 或 ISNULLO。 





使 用 NULL 来 表示 任意 类 型 的 悬空 值 。 
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智商 在 于 区 分 可 行 与 否 ， 





模 核 两 可 的 分 组 


里 性 在 于 区 分 明智 与 否 。 有 时 候 可 行 却 并 不 明智 。 
马克 思 。 伯 轧 


假设 你 的 老板 想 通 过 Bug 数据 库 来 了 解 哪 些 项 目 还 处 于 活跃 状态 , 哪些 项 目 已 经 停止 了 。 他 
让 你 生成 的 一 个 每 个 项 目 最 后 一 个 Bug 报告 提交 日 期 的 报表 。 你 写 了 个 查询 过 程 ， 在 MySQL 中 
查询 根据 product_id 分 组 的 Bug 的 date_reported 最 大 的 值 。 生 成 的 报表 类 似 于 下 面 这 样 。 


product_name 
Open RoundFile 
Visual TurboBuilder 


ReConsider 


latest bug_id 
2010-06-01 1234 
2010-02-16 3430 
2010-01-01 3078 


你 的 老板 是 一 个 注重 细 市 的 人 ， 他 花 了 后 时 间 人 研究 这 份 报 告 。 他 注意 到 ， 在 Open RoundFile 
这 个 项 目下 所 列 出 来 的 最 新 的 bug_id 其 实 并 不 是 最 新 的 。 比 较 一 下 全 量 数据 就 能 看 出 差异 。 


product_name 

Open RoundFile 
Open RoundFile 
Visual TurboBuilder 
Visual TurboBuilder 
Visual TurboBuilder 
ReConsider 


ReConsider 


你 要 怎么 解释 这 





date_reported bug_id 
2009-12-19 1234 这 个 bug id*……: 
20710-06-01 2248 与 这 个 日 期 不 匹配 
2010-02-16 3430 
2010-02-10 4077 
2010-02-16 S150 
2010-01-01 3078 
2009-11-09 8063 
文 个 问题 ? 为 什么 它 会 只 影响 了 一 个 产品 但 对 于 其 他 的 产品 来 说 又 是 正 般 


的 ? 你 要 怎么 才能 得 到 正确 的 报告 ? 


15.1 目标 : 获取 每 组 的 最 大 值 
大 多 数 程序 员 在 学 习 SQL 时 都 会 遇 到 在 查询 时 需要 使 用 GROUP BY 的 情况 ， 比 如 对 分 组 多 行 
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记录 使 用 一 些 聚 合 函 数 ， 每 组 多 取 一 条 统计 记录 等 。GROUP BY 的 强大 之 处 束 在 于 ， 它 把 复杂 的 
报表 生成 过 程 税 化 到 只 用 相对 很 少 的 代码 。 
例如 ， 想 要 使 用 单 次 查询 来 获取 Bug 数据 库 中 每 一 个 产品 最 新 的 Bug 报告 ， 可 以 这 么 写 : 
Groups/anti/groupbyproduct.sql 


SELECT product_1d, MAX(date_ reported) AS latest 
FROM Bugs JOIN BugsProducts USING (bug_1d) 
GROUP BY product_ 1d; 


对 于 上 述 查 询 最 基本 的 扩展 就 是 获取 最 新 Bug 的 ID: 
Groups/anti/groupbyproduct.sql 


SELECT product 1id, MAX(date reported) AS latest, bug_id 
FROM Bugs JOIN BugsProducts USING (bug_1d) 
GROUP BY product_ 1d; 


然而 ， 这 个 查询 在 不 同 的 数据 库 中 ， 要 么 古 一 个 语法 错误 ， 要 人 么 就 得 到 一 个 不 可 靠 的 结 来 。 
使 用 SQL 的 开发 人 员 对 此 普遍 感到 很 困惑 。 


本 草 的 目标 就 是 能 执行 一 个 不 仅 返 回 每 组 最 大 值 的 查询 (或 者 最 小 值 、 平 均值 )， 同 时 也 要 
能 返回 这 个 值 对 应 的 记录 的 其 他 字段 。 


15.2 反 模 式 : 引用 非 分 组 列 
造成 这 个 反 模 式 的 最 根本 原因 很 简单 ， 而 且 它 揭示 了 很 多 程序 员 对 于 SQL 中 分 组 查询 逻辑 





15.2.1 单 值 规则 


属于 每 个 组 的 行 ， 它 们 的 GROUP BY 关键 字 所 指定 的 那些 列 中 的 值 都 是 一 样 的 。 比 如 下 面 这 
个 奉 询 ， 对 于 每 个 不 同 的 product_id 都 会 运 回 一 条 记录 。 
Groups/anti/groupbyproduct.sql 


SELECT product_ id, MAX(date reported) AS latest 
FROM Bugs JOIN BugsProducts USING (bug_1d) 
GROUP BY product_ 1d; 


跟 在 SELECT 之 后 的 选择 列表 中 的 每 一 列 ， 对 于 每 个 分 组 来 说 都 必须 返回 且 仅 返回 一 个 值 。 
这 就 称 为 单 值 规则 。 在 GROUP BY 子 句 中 出 现 的 列 能 够 保证 它们 在 每 一 组 都 只 有 一 个 值 ， 无 论 这 
一 个 组 匹配 多 少 行 。 

MAXO 〇 表达 式 也 能 保证 每 组 都 返回 单一 的 值 ， 即 返回 传人 MAXO 的 参数 中 最 大 的 那个 值 。 

然而 ,数据 库 服务 不 能 确定 其 他 那些 在 选择 列表 中 的 列 ， 它 们 都 是 单 值 的。 它 不 能 保证 被 分 
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在 同一 组 中 的 行 的 其 他 列 都 共有 一 个 值 。 
Groups/anti/groupbyproduct.sql 


SELECT product_ 1d, MAX(date reported) AS latest, bug_id 
FROM Bugs JOIN BugsProducts USING (bug_1d) 
GROUP BY product_ 1d; 


在 这 个 例子 中 ， 一 个 给 定 的 product_id 有 很 多 不 同 的 bug_id， 因 为 BugsProducts 表 将 很 
多 Bug 和 同一 个 产品 关联 起 来 了 。 在 一 个 根据 product_id 进行 分 组 的 查询 中 ， 数 据 库 没 办 法 在 
查询 结果 中 表示 所 有 的 bug_id。 

由 于 对 于 这 些 “ 额 外 ”的 列 没有 办 法 保证 它们 满足 单 值 规 则 ， 数据库 就 假设 它们 违反 了 单 值 
规则 。 大 多 数 的 数据 库 在 你 尝试 返回 一 个 不 在 GROUP BY 的 参数 中 的 列 或 者 不 是 由 聚合 函数 返回 
的 值 时 ， 抛 出 一 个 错误 。 


MySQL 和 SQLite 在 这 方面 的 行为 和 其 他 的 数据 库 不 同 ， 我 们 将 在 15.4 节 中 具体 说 明 。 
15.2.2 我 想 要 的 查询 
程序 员 中 各 见 的 误解 是 认为 SQL 能 猜测 你 需要 在 报告 中 显示 哪个 bug_id， 因 为 MAXO 〇 是 用 
在 另 一 列 而 不 是 GROUP BY 的 那些 列 上 。 大 多 数 人 假设 如 果 查 询 得 到 了 最 大 值 ， 那 么 查询 返回 结 
果 中 的 其 他 列 就 会 是 对 应 的 这 个 最 大 值 所 在 的 列 中 的 那些 值 。 
不 笠 的 是 ，SQL 由 于 下 面 这 几 个 原因 ， 不 会 这 么 做 。 
口 如 果 两 个 Bug 的 date_reported 值 相 同 并 且 这 个 值 就 是 这 一 组 中 的 最 大 值 , 哪个 bug_id 
应 该 放 到 报告 中 ? 
口 如 果 聚 合 函 数 的 返回 值 没 有 匹配 表 中 的 任何 一 行 ， 又 该 用 哪个 bug_id? 当 使 用 AVGO、 
COUNTGO 和 SUMO 时 ， 这 种 事情 经 营 发 生 。 





Groups/anti/sumbyproduct.sql 


SELECT product _ 1d, SUM(hours) AS total project estimate, bug_id 
FROM Bugs JOIN BugsProducts USING (bug_1d) 
GROUP BY product_1d; 
口 如 末 查 询 用 到 了 两 个 不 同 的 聚合 函数 ， 比 如 MAXO 和 MINO ， 这 可 能 会 定位 到 一 组 中 两 条 
不 同 的 记录 。 那 这 组 应 该 返回 哪个 bug_id? 





Groups/anti/ maxandmin.sql 


SELECT product_ iid, MAX(date reported) AS latest, 
MIN(date_ reported) AS earliest, bug_id 

FROM Bugs JOIN BugsProducts USING (bug_1d) 

GROUP BY product_1d; 
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这 些 就 是 为 什么 单 值 规 则 是 如 此 重要 的 原因 。 不 是 每 个 不 遵照 这 个 规则 的 查询 都 会 导致 模 校 
两 可 的 结 末 , 但 大 多 数 邦 是 这 样 。 如 来 数 据 库 能 够 区 分 有 卜 义 和 无 上 疏 义 查询 ， 并 且 只 有 在 数据 会 
导致 上 疏 义 的 情况 下 才 返 回 错 误 就 好 了 。 但 这 样 会 导致 程序 的 可 靠 性 降低 , 这 总 味 着 同样 的 查询 可 
能 征 合 理 的 ， 也 可 能 是 不 合理 的 ， 唯 一 的 标准 竟然 是 数据 的 状态 ! 


15.3 如何 识 别 反 模式 


对 于 大 多 数 数据 库 来 说， 当 输 入 一 个 违 彰 了 单 值 规则 的 得 询 时 ， 会 立刻 返回 给 你 一 个 错误 。 
下 面 这 些 就 是 不 同 数据 库 返 回 的 错误 信息 。 


| 


Firebird 2.1: 
Invalid expression in the select list (not contained in either an 聚合 国 数 or 
the GROUP BY clause) 


IBM DB2 9.5: 

An expression starting with "BUG_I1D" specified in a SELECT clause, HAVING clause, 
or ORDER BY clause is not specified in the GROUP BY clause or it 1s in a SELECT 
clause, HAVING clause, or ORDER BY clause with a column function and no GROUP 


BY clause is specified. 


Microsoft SQL Server 2008: 
Column ‘Bugs.bug_71d'" 1s invalid 1n the select list because it 1s not contained 
in either an 聚合 水 数 or the GROUP BY clause. 


MySQL 5.1， 在 设置 ONLY_FULL_GROUP SQL 模式 之 后 禁止 歧义 查询 。 
'bugs.b.bug_7id' isn't in GROUP BY 


Oracle 10.2: 
not a GROUP BY expression 


PostegreSQL 8.3: 
column "bp.bug_id" must appear in the GROUP BY clause or be used in an 聚合 


函数 


在 SQLite 和 MySQL 中 ， 有 卜 义 的 列 可 能 包含 不 可 预测 的 和 不 可 靠 的 数据 。 在 MySQL 中 ， 
返回 的 值 是 这 一 组 结 末 中 的 第 一 条 记录 ， 其 排序 规则 古 按 照 实 际 的 物理 存储 顺序 来 定义 的 。 
SQLite 的 结果 正好 与 MySQL 相反 ， 它 返回 最 后 一 条 记录 。 这 两 者 的 行为 模式 都 没有 文档 摘 述 ， 
并 且 这 两 个 数据 库 都 不 保证 在 后 续 版 本 中 依旧 这 么 执行 。 注 意 这 些 特 征 并 且 合 理 设计 你 的 查询 
语句 来 避免 卜 义 ， 是 你 所 需要 做 的 。 
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GROUP BY 和 DISTINCT 


SQL 支持 另 一 个 查询 算 选 关键 字 DISTINCT， 它 的 作用 是 对 查询 结果 进行 去 重 操作 ， 这 
样 最 终 返 回 的 每 一 行 都 是 唯一 的 。 比 如 ， 下面 的 这 个 查询 返回 谁 在 哪 天 提交 过 Bug， 但 每 个 
2 

SELECT DISTINCT date_reported, reported by FROM Bugs; 

分 组 查询 如 果 去 掉 所 有 的 聚合 池 数 ， 也 能 完成 同样 的 事情 。 通 过 使 用 GROUP BY, 也 能 减 
少 到 GROUP BY 中 的 列 的 每 一 个 不 同 组 合 都 只 返回 一 条 查询 结果 : 


SELECT date_reported, reported by FROM Bugs 
GROUP BY date reported, reported_by; 


这 两 个 查询 返回 同样 的 结果 , 而 且 其 优化 和 执行 过 程 也 应 该 类 似 , 因此 这 个 例子 中 唯一 
的 不 同 大 概 就 是 偏好 问题 了， 


15.4 ”合理 使 用 反 模式 


正如 我 们 所 见 的 ，MySQL 和 SQLite 不 能 保证 那些 不 满足 单 值 规 则 的 列 返 回 的 数据 可 徘 。 有 
些 情况 下 你 能 利用 这 种 不 严谨 的 规则 获得 一 些 好 处 。 


Groups/legit/functional.sql 


SELECT b.reported by, a.account name 
FROM Bugs b JOIN Accounts a ON (b.reported by = a.account_1d) 
GROUP BY b.reported by; 


在 之 前 的 查询 中 ，account_name 列 从 技术 上 来 说 违背 了 单 值 规则 ， 因 为 它 既 没有 出 现在 
GROUP BY 子 句 中 , 也 没有 经 过 聚合 国 数 的 处 理 。 然 而 , 每 组 中 的 account_name 只 可 能 有 一 个 值 ， 
这 个 查询 中 的 分 组 是 依照 Bugs. reported_by 来 进行 的 ， 而 这 个 列 是 指 癌 Accounts 表 的 一 个 外 
键 ， 因 此 ， 分 组 规则 满足 和 Accounts 表 的 一 对 一 关系 。 


换 句 话说 ， 如果 你 知道 reported_by 的 值 , 那 就 可 以 之 无 坡 义 地 断定 对 应 的 account_name， 
束 好 像 你 是 根据 Accounts 表 的 主键 进行 查询 一 样 。 


这 种 没有 歧义 的 关系 叫做 函数 依赖 。 最 常见 的 例子 就 是 表 的 主键 和 对 应 的 值 ; account_name 
和 它 的 主键 account_id 之 间 是 一 个 函数 依赖 。 如 果 你 对 一 张 表 的 主键 进行 分 组 查询 ， 那 么 每 一 
个 分 组 都 会 定位 到 表 中 唯一 的 一 行 ， 因 此 这 一 组 中 的 其 他 列 就 必然 只 会 有 一 个 值 。 

Bugs .reported_by 和 Accounts 表 中 的 其 他 依赖 属性 有 类 似 的 关系 ,因为 它 引 用 了 Accounts 
表 的 主键 。 当 查询 是 基于 reported_by 的 分 组 时 ， 由 于 它 是 一 个 外 键 ，Accounts 表 的 属性 是 函 
数 依赖 的 ， 那 么 查询 结果 不 会 产生 任何 卜 义 。 
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然而 ， 大 多 数 的 数据 库 依然 会 返回 一 个 错误 。 不 仅 因为 SQL 标准 要 求 这 样 的 行为 ， 而 且 在 
执行 中 要 找 出 这 样 的 函数 依赖 的 开销 也 不 是 很 大 *。 但 如 果 你 使 用 的 是 MySQL 或 者 SQLite 并 且 
小 心 谨慎 地 处 理 那 些 函 数 依赖 列 上 的 查询 ， 你 就 能 使 用 这 样 的 查询 并 且 如 免 歧义 数据 。 
15.5 ”解决 方案 : 无 歧义 地 使 用 列 

接 下 来 的 几 节 将 介绍 几 种 方法 解决 这 个 反 模 式 ， 教 你 如 何 写 出 不 带 歧义 的 查询 语句 。 
15.5.1 ”只 查询 功能 依赖 的 列 

最 直接 的 解决 方案 就 是 将 有 歧义 的 列 排除 出 查询 。 


Groups/anti/groupbyproduct.sql 





SELECT product_ id, MAX(date reported) AS latest 
FROM Bugs JOIN BugsProducts USING (bug_1d) 
GROUP BY product_ 1d; 


这 个 查询 取出 产品 最 新 Bug 提交 的 日 期 ， 尽 管 它 并 不 狭 取 最 新 Bug 的 bug_id。 很 多 时 候 这 
就 够 了 ， 别 忽视 简单 的 解决 方案 。 


15.5.2 ”使 用 关联 子 查询 


关联 子 查 询 会 31 用 外 联结 查询 ， 并 且 根 据 外 联结 查询 中 的 每 一 条 记录 最 终 返 回 不 同 的 结果 。 
通过 用 子 查 询 来 搜索 同一 个 产品 中 Bug 日 期 的 更 新 ， 可 以 找到 每 个 产品 最 新 的 Bug。 只 要 子 查 询 
没有 返回 ， 那 么 外 联结 查询 到 的 Bug 就 是 最 新 的 。 
Groups/soln/notexists.sqgl 


SELECT bpl.product 1d, bl.date reported AS latest, bl.bug_id 
FROM Bugs bl JOIN BugsProducts bp1 USING (bug_1d) 
WHERE NOT EXISTS 
(SELECT x* FROM Bugs b2 JOIN BugsProducts bp2 USING (bug_1d) 
WHERE bpl.product _ 1d = bp2.product_1d 
AND bl.date reported < b2.date reported); 


这 个 查询 非常 地 向 单 易 读 。 然 而 ， 要 记 住 这 个 查询 的 性 能 并 不 古 最 好 的 ， 因 为 外 联结 查询 结 
琳 中 的 每 一 条 记录 都 会 执行 一 过 关联 的 子 查 询 。 


15.5.3 ”使 用 衍生 表 


你 可 以 使 用 衍生 表 来 执行 子 查询 ， 先 得 到 一 个 临时 的 结果 ， 只 包含 product_id 和 其 对 应 的 
最 新 的 Bug 报告 日 期 。 然 后 使 用 这 个 临时 表 和 原 表 进行 联结 查询 , 然后 就 能 得 到 每 个 产品 的 最 新 
的 Bug 信息 。 








@ 本 草 的 例子 都 很 镜 单 。 要 确认 其 他 任意 的 SQL 查询 是 不 是 功能 依赖 会 比 这 些 例子 困难 得 多 。 
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Groups/soln/derived-table.sql 


SELECT m.product id, m.latest, bl.bug_id 
FROM Bugs bl JOIN BugsProducts bpl USING (bug_1d) 
JOIN (SELECT bp2.product 1d, MAX(b2.date reported) AS latest 
FROM Bugs b2 JOIN BugsProducts bp2 USING (bug_1d) 
GROUP BY bp2.product 1d) m 
ON (bpl.product id = m.product_ 1d AND b1.date_reported = m. latest); 


product_id 


latest bug_id 
1 2010-06-01 2248 
2 2010-02-16 3430 
2 2010-02-16 S150 
3 2010-01-01 3078 
注意 一 





态 ， 如 琳 子 查询 返回 的 最 新 日 期 匹配 多 个 行 ， 那 么 对 应 每 个 产品 ， 你 会 获得 多 个 行 。 
如 采 你 要 确保 每 个 product_id 仅 有 一 条 记录 ， 束 可 以 在 外 联结 奋 询 时 使 用 为 一 个 分 组 函数 : 
Groups/soIn/derived-table-no-duplicates.sql 
SELECT m.product id, m.latest, MAX(bl.bug_1d) AS latest bug_id 
FROM Bugs bl JOIN 


(SELECT product_1id, MAX(date reported) AS latest 
FROM Bugs b2 JOIN BugsProducts USING (bug_1id) 
GROUP BY product 1d) m 


ON (bl.date reported = m. latest) 
GROUP BY m.product_ id, m.1latest; 


product_id 


latest latest_bug_id 
1 2010-06-01 2248 
2 2010-02-16 S150 
3 2010-01-01 5078 








衍生 表 方 案 征 一 个 相对 于 关联 子 碍 询 可 扩展 性 更 好 的 方案 。 衍 生 表 并 不 是 关联 的 ,因此 大 多 
数 品 牌 的 数据 库 狠 能够 一 次 执行 子 查询 。 然 而 ， 数 据 库 必须 将 临时 得 到 的 记录 存在 一 张 临时 表 
中 ， 因 此 ， 这 个 方案 也 不 是 性 能 最 优 的 方案 。 


15.5.4 使 用 JOIN 


你 可 以 创建 一 个 联结 查询 去 匹配 那些 可 能 不 存在 的 记录 。 这 样 的 联结 查询 被 称 为 外 联结 查 
询 。 如 果 堂 试 匹配 的 记录 不 存在 ， 就 会 使 用 NULL 来 替代 相应 的 列 。 因 此 ， 如 果 查 询 结 果 返 回 了 
NULL， 我 们 束 知 道 设 有 找到 相应 的 记 隶 。 

Groups/soln/outerjoin.sql 

SELECT bpl.product_1d, bl.date reported AS latest, bl.bug_id 

FROM Bugs bl JOIN BugsProducts bp1L ON (bl.bug_id = bpl.bug_1d) 


LEFT OUTER JOIN (Bugs AS b2 JOIN BugsProducts AS bp2 ON (b2.bug_id = bp2.bug_1d)) 
ON (bp1lL.product_ id = bp2.product_ 1d AND (bl.date reported < b2 .date_reported 
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OR bl.date reported = b2.date reported AND bl.bug_1d < b2.bug_1d)) 
WHERE b2.bug_ id IS NULL ; 


product_id latest bug_id 
l 2010-06-01 2248 
2 2010-02-16 S150 
3 2010-01-01 3078 


对 于 大 多 数 人 来 说 , 要 看 明白 这 个 查询 需要 花 点 时 间 , 并 且 需 要 在 理 稿 纸 上 做 点 标记 、 计 算 。 
但 是 ,一 旦 你 弄 明 白 它 是 起 么 回 事 之 后 ， 它 会 变 成 一 个 很 重要 的 工具 。 





JOIN 解决 方案 适用 于 针对 大 量 数据 奋 询 并 且 可 伸缩 性 比较 关键 时 。 尽 管 这 个 方案 比较 难以 理 
解 和 维护 , 但 它 总 是 能 比 基 于 子 碍 询 的 解决 方案 更 好 地 适应 数据 量 的 变化 。 记 住 一 定 要 对 不 同类 
型 的 查询 的 性 能 进行 实际 的 视 量 ， 而 不 古 仅 徘 猜测 来 判断 哪个 更 好 。 


15.5.5 ”对 额外 的 列 使 用 聚合 函数 


你 可 以 通过 对 额外 的 列 使 用 男 一 个 聚合 函数 ， 从 而 使 得 它们 芝 从 单 值 规 则 。 





Groups/soln/exira-aggregate.sql 


SELECT product_1d，MAX(Cdate_reported) AS latest, 
MAX(bug_1d) AS latest bug_id 
FROM Bugs JOIN BugsProducts USING (bug_1d) 
GROUP BY product_ 1d; 
只 有 确定 最 新 的 bug_id 对 应 的 Bug 的 日 期 也 是 最 新 的 时 候 , 才能 使 用 这 个 方案 , 也 就 古 说 ， 
Bug 是 按照 时 间 顺 序 提 交 的 。 


15.5.6 ”连接 同 组 所 有 值 


最 后 ， 还 有 一 个 聚合 函数 可 以 用 来 处 理 bug_id 并 避免 违 冶 单 值 规则 。MySQL 和 SQLite 提 
供 了 一 个 叫做 GROUP_CONCATO 的 函数 ， 它 能 将 这 一 组 中 所 有 的 值 连 在 一 起 作为 单一 值 返 回 ， 上 默 
认 情 况 下 ， 返 回 的 是 一 个 由 逗号 分 割 的 字符 串 。 





Groups/soln/group-concat-mysql.sql 


SELECT product_1d, MAX(date reported) AS latest 
GROUP_CONCAT(bug_1id) AS bug_ id_11Sst， 

FROM Bugs JOIN BugsProducts USING (bug_1d) 

GROUP BY product_ 1d; 


product_id latest 


bug_id_list 
l 2010-06-01 1234,2248 
2 2010-02-16 3456,4077,5150 
3 2010-01-01 3078,8003 
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这 个 查询 并 不 会 告诉 你 哪个 bug_id 对 应 最 新 的 日 期 ，bug_id_1ist 包含 了 这 一 组 中 的 所 有 
bug_id。 


这 个 方案 的 另 一 个 缺点 是 ， 它 并 非 SQL 标准 函数 。 其 他 的 数据 库 并 不 文 持 这 个 国 数 。 有 些 
数据 库 支 持 目 定义 函数 和 目 定义 聚合 国 数 。 比 如 ，PostgreSQL 中 可 以 这 么 处 理 : 


Groups/soln/group-concat-pgsql.sql 


CREATE AGGREGATE GROUP_ARRAY ( 
BASETYPE = ANYELEMENT ， 
SFUNC = ARRAY_APPEND, 
STYPE = ANYARRAY, 
INITCOND = '{}" 
2 


SELECT product_1d, MAX(date reported) AS latest 
ARRAY_TO_STRING(GROUP_ARRAY(bug_1id), ',') AS bug_ 1d_11st， 

FROM Bugs JOIN BugsProducts USING (bug_1id) 

GROUP BY product_ 1d ; 


男 一 些 数据 库 并 不 支持 目 定 义 函 数 , 因此 实现 这 个 解决 方案 需要 写 存 储 过 程 过 历 一 个 非 分 组 
的 查询 结 琳 ,手动 地 将 每 个 值 连 在 一 起 。 

当 你 希望 非 Group By 列 在 每 一 组 中 只 有 一 个 值 ， 但 实际 存储 的 数据 依旧 违背 单 值 规 则 的 情 
况 下 ， 可 以 使 用 这 种 方案 。 





遵循 单 值 规则 ， 避 免 获得 模棱两可 的 查询 结果 。 
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随机 选择 


随机 数 的 产生 实在 太 重 要 了 ， 不 能 够 让 它 由 偶然 性 来 决定 。 
罗伯特 。 科 维 欧 


一 个 融 广 告 系统 的 网 站 ， 需 要 在 用 户 每 次 访问 页 面 的 时 候 随 机 选择 一 个 广告 来 展示 ， 让 每 
一 个 广告 投递 商都 有 同等 机 会 展示 其 广告 ， 并 且 读 者 也 不 会 因为 每 次 都 显示 一 样 的 广告 而 觉得 
无 聊 。 

最 开始 的 几 天 一 切 帮 好 ,但 是 逐 洒 地 ， 网 站 变 得 越 来 越 慢 。 几 个 星期 以 后 ， 人 们 就 开始 抱怨 
网 站 太 慢 了 。 你 通过 测试 真实 页 面 的 加 载 速度 发 现 , 这 并 不 是 心理 作用 。 你 的 读者 开始 失去 兴趣 ， 
网 站 六 量 也 在 降低 。 


根据 过 往 的 经 验 , 你 首先 想到 使 用 性 能 工具 和 一 个 市 有 示例 数据 的 测试 数据 库 来 定位 性 能 瓶 
人 须 。 但 古奇 怪 的 是 ， 通 过 视 试 页 和 面 加 载 速 度 ， 发 现 用 来 生成 页 面 的 每 一 个 SQL 查询 看 上 去 和 邦 没 
有 问题 。 但 生产 环境 上 的 网 站 的 确 正 变 得 越 来 越 慢 。 

最 终 ， 你 意识 到 生产 环境 上 的 数据 库 要 比 你 的 测试 样本 大 得 多 得 多 。 于 是 你 用 了 一 个 同等 规 
模 的 数据 库 重 新 进行 测试 ， 发现 回 题 出 在 广告 选择 的 那个 查询 上 。 随 着 广告 的 数量 越 来 越 多 ， 随 
机 选择 的 性 能 直线 下 降 。 你 已 经 发 现 了 这 个 扩展 性 很 差 的 查询 ， 这 就 近 出 了 重要 的 第 一 步 。 

你 要 怎么 在 网 站 丢失 所 有 的 读者 和 赞助 商 之 前 ， 重 新 设计 这 个 随机 选择 广告 的 查询 ? 


16.1 目标 : 获取 样本 记录 


执行 随机 返回 结 琳 的 查询 的 频率 远大 于 我 们 的 预期 从 一 个 大 的 数据 集中 返回 数据 样 例 是 很 
平 第 的 事情 ， 这 似乎 和 可 重用 、 确 定性 的 程序 设计 原则 相 违 痛 。 比 如 下 面 这 些 情 况 : 

oD 轮流 展示 的 内 容 ， 比 如 广告 或 者 推荐 的 新 闻 ，; 

DD 审核 记录 的 子 集 ; 











到 灵 社 区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


16.2 反 模 式 : 随机 排序 二 145 


D 给 当前 可 用 的 操作 对 象 指派 输入 请 求 ， 
D 生成 测试 数据 。 
相 比 于 将 整个 数据 集 读 入 程序 中 再 取出 样 例 数 据 集 , 直接 通过 数据 库 查 询 拿 出 这 些 样 例 数 据 


本 草 的 目标 就 是 要 写 出 一 个 仅 返 回 随机 数据 样本 的 高 效 SQL 查询 。 


16.2 反 模 式 : 随机 排序 


歼 取 随机 记录 的 最 第 见 SQL 方法 ， 就 是 对 查询 结 琳 进行 随机 排序 ， 然 后 获取 第 一 行 。 这 种 
技术 理解 起 来 很 方便 ， 实 现 起 来 也 很 方便 : 


Random/anti/orderby-rand.sqgl 








SELECT * FROM Bugs ORDER BY RANDC) LIMIT 1; 

尽管 这 是 一 个 很 流行 的 解决 方案 ,但 它 的 弱点 也 很 鲜明 。 要 理解 这 种 方案 的 弱点 ,我们 要 先 
来 和 普通 排序 进行 一 下 比较 。 一 般 的 排序 过 程 中 ,我 们 对 茶 一 列 中 的 值 进 行 两 两 比较 ,根据 比较 
结果 来 排序 行 。 这 种 排序 方法 是 可 复 用 的 ， 当 你 执行 多 次 这 样 的 排序 时 ,每 次 返回 的 结果 都 是 一 
样 的 。 同 时 这 种 方式 也 能 受益 于 索引 ， 因 为 索 51 本 壬 就 古 根 据 给 定 的 列 排序 的 。 


Random/anti/indexed-sort.sql 





SELECT * FROM Bugs ORDER BY date reported; 

如 琳 排 序 的 依据 是 给 每 一 条 记录 分 配 一 个 随机 值 的 函数 , 通过 比较 这 个 随机 值 来 确定 谁 大 谁 
小 ， 那 这 样 的 结果 就 和 记录 本 身 的 值 无 天， 这样 的 排序 每 次 执行 的 结果 也 都 不 一 样 。 这 正 古 目前 
我 们 想 要 的 结果 。 


使 用 不 定 表 达 式 (RANDO) ) 意味 着 整个 排序 过 程 无 法 利用 索引 ， 因 为 没有 索引 会 基于 随机 孙 
数 返 回 的 值 。 这 就 是 随机 的 作用 ， 每 次 选择 的 时 候 都 不 同 并 且 不 可 预测 。 


这 就 古 有 影 啊 查询 性 能 的 问题 所 在 ,因为 使 用 索引 是 加 速 排序 的 最 好 方法 。 不 使 用 索引 | 的 后 琳 
就 是 查询 结 末 不 得 不 由 数据 库 “ 手 动 地 ”重新 排序 ， 这 被 称 为 一 次 全 表 人 遍历 ， 并且 经 营 伴 随 着 将 
整个 结 末 集 保存 到 临时 表 中 以 及 通过 物理 交换 表 内 数据 顺序 操作 来 进行 排序 的 情况 ,一 次 全 表 氨 
历 排 序 比 使 用 索引 排序 要 慢 很 多 ， 并 且 性 能 的 凌 异 随 着 数据 量 的 增长 而 更 加 显著 。 

随机 排序 的 男 一 个 问题 是 ， 好 不 容易 对 整个 数据 集 完 成 排序 ， 但 绝 大 多 数 的 结 霖 都 浪费 了 ， 
因为 除了 返回 第 一 行 之 外 ， 其 他 结 末 都 立刻 被 丢弃 了 。 在 一 个 上 二 行 的 表 中 ， 为 什么 要 费力 地 随 
机 排序 所 有 的 记录 ， 而 我 们 所 需要 的 仅仅 古 基 中 的 一 行 ? 








中 数学 家 和 计算 机 科学 家 对 真实 随机 和 伪 随 机 进行 了 详细 的 区 分 。 在 实际 中 ， 计 算 机 只 能 产生 伪 随 机 数 。 
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这 些 问 题 在 数据 量 很 小 的 时 候 都 是 不 容易 被 发 现 的 , 因此 在 开发 和 测试 过 程 中 它 痢 可 能 古 一 
个 很 好 的 方案 。 但 随 着 数据 量 不 断 地 增长 ， 这 个 查询 却 无 法 很 好 地 扩展 。 


16.3 如何 识 别 反 模式 


在 16.2 区 中 描述 的 这 个 技术 非常 简单 ， 并 且 很 多 程序 员 可 能 是 在 某 篇 文 草 中 看 到 过 或 者 目 
己 研 究 过 ， 邵 在 使 用 这 项 技术 。 下 面 的 这 些 问题 可 能 就 是 你 的 同事 用 了 本 半 的 反 模式 的 线索 。 

D 在 SQL 中 ,返回 一 个 随机 行 真 慢 啊 ! 

在 开发 和 测试 环境 中 ， 由 于 数据 量 较 小 ， 歼 取 随 机 样本 的 查询 语句 工作 得 很 好 。 但 随 着 
真实 数据 的 增长 ， 它 也 未 淘 变 得 缓慢 。 没 什么 数据 库 调 优 方 染 、 索 5 引 或 者 缓存 能 够 提升 
它 的 扩展 性 。 

“我 要 怎么 增加 我 的 程序 的 可 使 用 内 存 大 小 ? 我 要 获取 所 有 的 记录 然后 随机 选择 一 个 。 
你 不 应 该 将 所 有 数据 载 入 到 程序 内 存 中 ， 这 么 做 非常 浪费 资源 。 除 此 之 外 ， 数 据 库 的 数 
据 会 不 断 增 长 直到 程序 内 存 完全 不 够 用 。 

口 “你 古 不 古 也 觉得 有 些 列 出 现 的 频率 比 别 的 要 高 一 些 ? 这 个 随机 算法 貌似 不 古人 很 随机 。 
数据 主键 并 不 连续 ， 并 且 随 机 数 生成 算法 并 没有 考虑 到 这 一 点 《参考 16.5 市 )。 


16.4 ”合理 使 用 反 模 式 


随机 排序 的 性 能 问题 在 数据 量 很 小 的 时 候 是 可 容 忽 的 。 

比如 ， 你 可 以 随机 选择 程序 员 去 处 理 一 个 指定 的 Bug。 我 们 可 以 保证 , 程序 员 的 数量 永远 不 
会 大 到 需要 使 用 高 扩展 性 随机 算法 。 

另 一 个 例子 就 征 从 美国 50 个 州 中 随机 选择 一 个 ， 这 个 列表 的 大 小 适度 ， 而 且 在 我 们 有 生 之 
年 不 太 可 能 改变 。 


16.5 ”解决 方案 : 没有 具体 的 顺序 …… 


随机 选择 是 需要 全 表 遍 历 并 且 耗 时 地 进行 手动 排序 的 一 个 典型 案例 。 在 你 设计 SQL 碍 询 时 ， 
应 该 仔细 地 检查 是 否 也 有 类 似 的 查询 。 与 其 徒劳 地 想 办 法 优化 一 个 不 可 被 优化 的 查询 , 还 不 如 考 
虑 别 的 实现 方案 。 你 可 以 使 用 接 下 来 几 段 中 所 介绍 的 方法 来 获得 一 条 随机 记录 。 与 随机 排序 不 同 
的 是 ， 下 面 的 每 一 个 方案 都 能 高 效 地 获得 同样 的 随机 效 末 。 


16.5.1 从 1 到 最 大 值 之 间 随 机 选择 
一 种 避免 对 所 有 数据 进行 排序 的 方法 ， 就 是 在 1 到 最 大 的 主键 值 之 间 随 机 选择 一 个 。 
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Random/soln/rand-1-to-max.sqgl 


SELECT bil.* 
FROM Bugs AS bl 
JOIN (SELECT CEIL(RAND() * (SELECT MAX(bug id) FROM Bugs)) AS rand 1d) AS b2 


ON (bl.bug id = b2.rand 1d); 
这 个 方案 假设 主键 的 值 是 从 工 开 始 并 且 保 持 和 连续 。 这 意味 着 在 1 到 最 大 值 之 间 没 有 任何 值 是 
未 使 用 的 。 如 采 当 中 漏 摊 一 些 值 ， 那 随机 获得 的 主键 可 能 取 不 到 任何 数据 。 


当 确 信 主 键 是 从 1 到 最 大 值 连续 的 时 候 ， 可 以 使 用 这 个 方案 。 
16.5.2 选择 下 一 个 最 大 值 


这 个 方案 和 前 一 个 方案 类 似 , 但 解决 了 在 1 到 最 大 值 之 间 有 颖 际 的 情况 , 这 个 查询 会 返回 它 
随机 找到 的 第 一 个 有 效 的 值 。 
Random/soln/next-higher.sql 


SELECT bl.* 
FROM Bugs AS bl 
JOIN (SELECT CEIL(RAND() * (SELECT MAX(bug id) FROM Bugs)) AS bug id) AS bz2 


WHERE bl1.bug id >= b2.bug 1d 
ORDER BY bl1.bug_ 1d 
LIMIT 1; 


这 个 方法 解决 了 随机 数 没 有 主键 的 情况 , 同时 也 意味 着 在 一 个 缝隙 之 后 的 那个 值 被 选中 的 概 
率 会 增 大 。 即 使 在 一 个 离散 的 队列 中 , 随机 也 应 该 保证 每 个 值 出 现 的 概率 相等 , 但 这 里 的 bug_id 
并 不 是 如 此 。 

当 队 列 中 的 缝隙 不 大 并 是 每 个 值 要 被 等 概率 选择 的 重要 性 不 高 时 ， 可 以 考虑 使 用 这 种 方案 。 


16.5.3 ”获取 所 有 的 键 值 ， 随 机 选择 一 个 


你 可 以 使 用 程序 代码 来 敖 取 所 有 的 主键 值 ， 然 后 随机 选择 一 个 。 再 使 用 这 个 随机 选择 出 来 的 
主键 查询 完整 的 记录 。 可 以 用 如 下 鸭 PHP 代码 实现 : 

















Random/soln/rand-key-from-list.ohp 


<?php 
$bug_id_list = $pdo->query("SELECT bug_ id FROM Bugs"”)->fetchAl 1] (CD 


$rand = random( count($bug_id_1ist) ) 

$rand bug id = $bug id list[$rand]j["bug_ id"]; 

$stmt = $pdo->prepare("SELECT * FROM Bugs WHERE bug_ id = ?"); 
$stmt->execute( array($rand bug_1d) ) 

$rand bug = $stmt->fetch(D) ; 
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这 个 方法 避免 了 对 全 表 的 排序 ， 并 且 选 择 每 个 键 的 概率 相同 ， 但 它 也 有 其 他 的 开销 。 
D 获取 所 有 的 bug_id 时 会 得 到 一 个 过 长 的 列表 ， 可 能 会 超出 程序 所 能 处 理 的 内 存 极 限 ， 并 
且 导 致 如 下 的 错误 : 
Fatal error: Allowed memory size of 16777216 bytes exhausted 
D 查询 必须 执行 两 次 : 一 次 获取 主键 的 列表 ， 第 二 次 获取 对 应 的 记录 。 如 果 查 询 太 复杂 或 
者 太 耗 时 ， 这 就 会 成 为 回 题 。 
当 查 询 逻 辑 很 简单 并 且 数 据 量 适度 的 时 候 ， 可 以 萎 虑 使 用 这 个 方案 。 这 个 方案 在 处 理 非 连续 
值 时 效果 很 好 。 
16.5.4 ”使 用 偏 移 量 选 择 随机 行 
还 有 男 一 个 方案 来 避免 之 前 儿 个 方案 中 的 问题 , 那 就 是 计算 总 的 数据 行 数 , 随机 选择 0 到 总 
行 数 之 则 的 一 个 值 ， 然 后 用 这 个 值 作为 位 移 来 获取 随机 行 。 
Random/soln/limit-offset.php 


<?php 


$rand = "SELECT ROUNDCRAND() * (SELECT COUNT(x) FROM Bugs))"; 
$offset = $pdo->query($rand)->fetch (PDO: :FETCH_ASSOO); 


$sql = “SELECT * FROM Bugs LIMIT 1 OFFSET :offset"; 
$stmt = $pdo->prepare($sql); 

$stmt->execute( $offset ); 

$rand bug = $stmt->fetch(D) ; 


这 个 方案 使 用 了 非 标准 的 LIMIT 子 句 ，MySQL、PostgreSQL 和 SQLite 支持 这 一 子 句 。 
Oracle、IMicrosoft SQL Server 和 IBM DB2 使 用 另 一 个 叫做 ROW_NUMBERO 〇 的 函数 。 
比如 ， 下 面 是 Oracle 的 解决 方案 : 


Random/soln/row_number.php 





<?php 

$rand = "SELECT 1 + MOD(ABS(dbms_random.random()), 
(SELECT COUNT(x) FROM Bugs)) AS offset FROM dual"; 

$offset = $pdo->query($rand)->fetch (PDO: :FETCH_ASSOC) ; 


$sql = "WITH NumberedBugs AS ( 
SELECT b.x, ROW_ NUMBER() OVER (ORDER BY bug_ 1d) AS RN FROM Bugs b 
) SELECT * FROM NumberedBugs WHERE RN = :offset"; 
$stmt = $pdo->prepare($sql); 
$stmt->execute( $offset ); 
$rand bug = $stmt->fetch(); 


当 你 不 能 保证 主键 十 连续 的 ， 并 且 需 要 每 行 都 有 相同 的 选中 概率 时 ， 可 以 用 这 个 方案 。 
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16.5.5 专 有 解决 方案 


每 种 数据 库 都 可 能 针对 这 个 需求 提供 独 有 的 解决 方案 ， 比 如 Microsoft SQL Server 2005 增加 
了 一 个 TABLE-SAMPLE 子 句 : 


Random/soln/tablesample-sql2005.sql 


SELECT * FROM Bugs TABLESAMPLE (1 ROWS); 
Oracle 使 用 了 一 个 类 似 的 SAMPLE 子 句 ， 比 如 返回 表 中 1% 的 记录 : 


Random/soln/sample-oracle.sqgl 


SELECT * FROM (SELECT x% FROM Bugs SAMPLE (1) 
ORDER BY dbms_random.value) WHERE ROWNUM = 工 ; 


你 应 该 仔细 阅读 所 使 用 的 数据 库 的 说 明文 档 , 来 找 这 些 专 有 解决 方案 。 通 贡 都 有 一 些 限制 或 
者 额外 参数 需要 学 习 。 


有 些 查询 是 无 法 优化 的 ， 换 种 方法 试 试看 。 
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有 些 人 遇 到 问题 时 总 是 会 说 : 我 知道 ,我 会 使 用 正则 表达 式 。 然后 他 会 碰 到 更 多 


杰 米 。 加 文 斯 基 


1995 年 ， 我 在 一 家 公司 做 技术 支持 ， 那 时 公司 开始 通过 Web 癌 客 户 提 供 信 息 。 我 们 有 一 
系列 简短 文档 描述 了 常见 问题 的 解决 方案 ， 我 们 想 把 这 些 文章 放 到 Web 做 成 一 个 知识 库 。 


我 们 很 快 就 意识 到 ， 随 着 文章 数量 的 增长 ， 知 识 库 需 要 支持 搜索 功能 ， 因 为 客户 不 想 训 览 
百 篇 文章 才 找 到 他 们 需要 的 解决 方案 。 一 个 临时 的 应 对 方案 是 将 文章 分 类 , 但 即使 如 此 ， 每 个 分 
类 下 的 文章 数量 也 很 大 ， 并 且 很 多 文章 都 可 能 属于 多 个 分 类 。 


我 们 想 要 让 客户 能 够 通过 搜索 文章 ,缩小 候选 列表 。 了 最 灵活 和 直接 的 界面 就 是 允许 客户 输入 
任意 的 关键 字 , 然后 给 出 包含 这 些 关 键 字 的 文 草 ,一 篇 文 草 如 末 和 用 户 输 入 的 关键 字 匹 配 度 越 高 ， 
则 出 现 的 越 菲 前 。 同 时 ， 我 们 也 希望 能 够 匹配 词 形变 化 。 比 如 ， 对 crash 的 搜索 也 要 同时 匹配 
crashed、crashes 和 crashing。 当然 这 个 搜索 要 能 够 在 一 个 不 断 增 长 的 文章 集合 中 快速 地 返回 结 采 ， 
这 样 才能 在 一 个 Web 程序 中 使 用 它 。 

如 采 上 面 这 些 细 贡 摘 述 让 对 你 觉得 多 余 , 我 并 不 感到 慰 讶 。 搜索 技术 在 如 今 已 经 变 得 如 此 平 
前 ， 以 至 于 我 们 都 回想 不 起 来 它 出 现 之 前 的 情况 了 。 但 是 用 SQL 搜索 关键 字 ， 同 时 保证 快速 和 
和 精确 ， 依 旧 和 十 相当 地 困难 。 


17.1 目标 : 全 文 搜索 


任何 存储 文本 的 应 用 和 都 有 针对 这 个 文本 进行 单词 或 词组 搜索 的 需求 。 我们 使 用 数据 库存 储 越 
来 越 多 的 文本 数据 ,同时 也 需要 搜索 速度 越 来 越 快 。Web 应 用 尤其 需要 高 性 能 和 高 扩展 性 数据 库 
搜索 技术 。 
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SQL 的 一 个 基本 原理 (以 及 SQL 所 继承 的 关系 原理 ) 就 是 一 列 中 的 单个 数据 是 原子 性 的 。 
也 就 是 说 ， 你 能 对 两 个 值 进行 比较 ， 但 通 第 是 把 两 个 值 当 成 两 个 整体 来 比较 。 在 SQL 中 比较 子 
字符 串 总 是 意味 着 低 效 和 不 精确 。 


尽管 如 此 , 我 们 仍旧 需要 一 个 方法 来 比较 一 个 较 短 的 字符 串 和 一 个 较 长 的 字符 串 , 并 且 查 看 
是 否 较 短 字 符 串 是 较 长 字符 是 的 一 个 子 串 。 我 们 要 怎么 使 用 SQL 来 实现 这 样 的 需求 呢 ? 


17.2 反 模 式 : 模式 匹配 断言 


SQL 提供 了 模式 匹配 断言 来 比较 字符 串 ， 并 且 这 是 很 多 程序 员 用 来 搜索 关键 字 的 第 一 选择 。 
最 广泛 支持 的 就 是 LIKE 断言 。 


LIKE 上 断言 提供 了 一 个 通配符 〈%) 用 以 匹配 0 个 或 者 多 个 字符 。 在 一 个 关键 字 之 前 及 之 后 使 
用 通配符 能 够 匹配 到 包含 这 个 关键 字 的 任意 字符 串 。 第 一 个 通配符 匹配 了 关键 字 之 前 的 所 有 文 
本 ， 第 二 个 通配符 匹配 了 关键 字 之 后 的 所 有 文本 。 
Search/anti/like.sql 
SELECT * FROM Bugs WHERE description LIKE ‘'%crash%'; 
正则 表达 式 也 被 很 多 数据 库 所 支持 ， 尽管 这 不 是 标准 。 你 不 需要 使 用 通配符 ， 因 为 基本 上 下 
则 表达 式 能 对 所 有 子 串 进行 模式 匹配 。 如 下 是 一 个 使 用 MySQL 的 正则 表达 式 的 例子 “: 
Search/anti/regexp.sql 
SELECT * FROM Bugs WHERE description REGEXP “crash ; 
使 用 模式 匹配 操作 符 的 最 大 缺点 就 在 于 性 能 问题 。 它 们 无 法 从 传统 的 索引 上 受益 ,因此 必须 
进行 全 表 遍 历 。 由 于 对 一 个 字符 串 列 进行 匹配 操作 非常 耗 时 (相对 来 说 ， 和 比较 两 个 整数 是 否 相 
等 所 耗 的 时 间 相 比 )， 全 表 表 历 所 花 的 总 时 间 就 非 第 多 。 


使 用 LIKE 或 者 正则 表达 式 进 行 模 式 匹 配 搜索 的 为 一 个 问题 就 是 ， 经 第 会 运 回 意料 之 外 的 
结 采 。 


Search/anti/like-false-match.sql 





SELECT * FROM Bugs WHERE description LIKE ‘'%one%'; 

上 面 的 这 个 例子 是 要 匹配 包含 one 这 个 单词 的 文本 , 同时 也 匹配 到 单词 money、prone lonely 
守 。 在 关键 字 两 端 都 加 上 空格 也 不 能 完美 解决 这 个 同 题 ,因为 无 法 匹配 到 后 面 直接 跟着 标点 竹 号 
的 单词 或 者 正好 在 文本 开头 或 结尾 的 单词 ,数据 库 支持 的 正则 表达 式 可 能 会 为 单词 边界 提供 一 个 














@ 尽管 SQL-99 标准 定义 了 SIMILAR TO 这 个 断言 用 来 匹配 正则 表达 式 ， 但 大 多 数 SQL 数据 库 还 是 使 用 非 标准 的 
语法 。 
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模式 来 解决 单词 匹配 问题 : 
Search/anti/regexp-word.sql 
SELECT * FROM Bugs WHERE description REGEXP '[[:<:jJjonel[l[:>:]]'; 
考虑 到 性 能 和 扩展 性 的 问题 , 以 及 预防 不 合理 的 匹配 所 做 的 工作 , 简单 的 模式 匹配 对 于 关键 
字 搜 索 来 说 是 一 个 糟糕 的 技术 方案 。 
17.3 如何 识别 反 模 式 
如 下 的 一 些 问 题 通 党 预示 着 项 目 中 使 用 了 “可 怜 人 的 搜索 引擎 ”这 个 反 模 式 。 
D “我 要 怎么 在 LIKE 表达 式 的 两 个 通配符 之 间 插入 一 个 变量 ? ” 
通常 当 程序 员 想 要 使 用 模式 匹配 对 用 户 输 入 的 关键 字 进 行 搜索 时 ， 会 产生 这 个 同 题 。 
口 “我 要 怎么 写 一 个 正则 表达 式 来 检查 一 个 字符 串 是 否 包含 多 个 单词 、 不 包含 一 个 特定 的 单 
词 ， 或 者 包含 给 定单 词 的 任意 形式 ?“ 
如 果 一 个 复杂 的 回 题 看 起 来 用 正则 表达 式 很 难 解决 ， 那 束 是 用 了 有 反 模 式 了。 
口 “ 我 们 网 站 的 搜索 功能 在 加 了 很 多 文档 进去 之 后 慢 得 不 可 理喻 了 。 出 什么 问题 了? ” 
随 着 数据 的 增长 ， 这 个 反 模 式 方 案 就 暴露 出 了 它 脆弱 的 扩展 性 问题 。 


17.4 ”合理 使 用 反 模 式 


在 17.2 市 中 所 使 用 的 SQL 语句 都 是 合法 的 ， 并 且 很 简单 直接 。 这 意味 着 很 多 东西 。 

性 能 总 是 非常 重要 的 , 但 一 些 查 询 过 程 很 少 执 行 ， 因此 不 需要 花 很 多 功夫 对 它 进 行 优化 。 为 
一 个 很 少 使 用 的 查询 维护 一 个 索引 ， 可 能 就 和 用 不 高 效 的 方法 执行 查询 一 样 耗资 源 。 如 琳 这 个 查 
询 是 一 个 临时 的 查询 ， 没 人 能 保证 你 定义 的 索引 能 够 给 这 个 查询 市 来 任何 好 处 。 

使 用 模式 匹配 操作 进行 复杂 查询 是 很 困难 的 , 但 如 条 你 是 为 了 一 些 简 单 的 需求 设计 这 样 的 模 
式 匹 配 ， 它 们 就 能 帮助 你 用 最 少 的 工作 量 获得 正确 的 结 末 。 


17.5 ”解决 方案 : 使 用 正确 的 工具 


最 好 的 方案 就 是 使 用 特殊 的 搜索 引擎 技术 , 而 不 是 SQL。 男 一 个 可 选 方案 十 将 结 来 保存 起 来 
从 而 减少 重复 的 搜索 开销 。 

接 下 来 的 几 市 介绍 了 一 些 数据 库 的 内 置 扩展 和 独立 项 目 所 提供 的 搜索 技术 。 同 时 , 我 们 也 会 
设计 一 个 完全 使 用 SQL 标准 的 解决 方案 ， 它 显然 会 比 使 用 子 串 匹配 更 高 效 。 














@ 本 例 使 用 的 是 MySQL 的 语法 。 
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17.5.1 数据库 扩展 


每 个 大 品牌 的 数据 库 都 有 对 全 文 搜索 这 个 需求 的 解决 方案 ， 但 这 些 方案 并 设 有 任何 的 标准 ， 
各 个 数据 库 的 实现 也 互 不 兼容 。 如 果 只 使 用 一 种 数据 库 品 牌 (或 者 打算 使 用 开发 商 开 发 的 特性 )， 
这 些 特性 是 获得 高 性 能 文本 搜索 的 最 佳 途径 ， 并 且 能 和 SQL 查询 整合 得 非常 好 。 

如 下 是 对 一 些 SQL 数据 库 的 全 文 搜 索 技术 的 简要 摘 述 。 有 具体 的 细节 不 断 随 数据 库 的 版 本 升 
级 而 改变 ， 因 此 记得 要 阅读 一 下 对 应 当前 使 用 版 本 的 文档 。 

MySQL 中 的 全 文 索引 

MySQL 为 MyISAM 存储 引擎 提供 了 一 个 简单 地 全 文 索引 类 型 。 你 可 以 在 一 个 类 型 为 CHAR、 
VARCHAR 或 者 TEXT 的 列 上 定义 一 个 全 文 索引 。 下 面 这 个 例子 在 Bug 的 summary 和 description 
列 上 定义 了 全 文 索引 : 


Search/soln/mysqgl/alter-table.sql 























ALTER TABLE Bugs ADD FULLTEXT INDEX bugfts (summary, description); 
可 以 使 用 MATCHO 函 数 对 索引 内 容 进行 搜索 。 必 须 在 匹配 时 指定 需要 全 文 索 引 的 列 (因而 你 
可 以 在 同一 张 表 中 对 其 他 列 使 用 不 同类 型 的 索引 1)。 


Search/soln/mysqgql/match.sql 





SELECT * FROM Bugs WHERE MATCH(summary, description) AGAINST ('crash ) ; 
自 MySQL 4.1 开始 ， 你 还 能 在 表达 式 上 使 用 俐 单 的 布尔 运算 来 更 精确 地 过 小 查询 结果 。 
Search/soln/mysqgql/match-boolean.sql 


SELECT * FROM Bugs WHERE MATCH(summary, description) 
AGAINST ('+crash -save' IN BOOLEAN MODE ) ; 


Oracle 中 的 文本 索引 

从 1997 年 的 Oracle 8 开始 ，Oracle 就 支持 了 文本 索引 特性 ， 当 时 它 是 数据 资料 夹 的 一 部 分 ， 
称 为 ConText。 这 项 技术 在 随后 的 版 本 中 多 次 更 新 ， 现 在 已 经 被 集成 到 数据 库 程序 里 了 。Oracle 
中 的 文本 索引 技术 复杂 且 强 大 ， 因 此 这 里 只 能 非常 简单 地 总 结 一 下 。 








DD CONTEXT 
为 单个 文本 列 建立 一 个 这 样 的 索 5| 类 型 ， 使 用 CONTAINSQ 〇 操作 符 进 行 搜索 。 索 引 和 数据 
不 保持 同步 ， 因 此 你 每 次 都 得 手动 重建 索引 或 者 定期 重建 。 


Search/soln/oracle/create-index.sql 








CREATE INDEX BugsText ON Bugs(summary) INDEXTYPE IS CTSSYS.CONTEXT; 


SELECT * FROM Bugs WHERE CONTAINS(summary, 'crash') > 0; 
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D CTXCAT 
这 个 类 型 的 索引 古 针 对 短文 本 设计 的 ， 比 如 用 在 在 线程 序 的 分 类 目录 上 ， 和 同一 张 表 的 
其 他 结构 化 列 一 起 。 这 种 类 型 的 索引 会 保持 数据 的 同步 。 


Search/soln/oracle/ctxcat-create.sql 


CTX_DDL .CREATE_ INDEX SET( 'BugsCatalogSet '); 
CTX_DDL .ADD_INDEX( 'BugsCatalogSet', 'status'); 
CTX_DDL .ADD_INDEX( 'BugsCatalogSet', prTorTty ) ; 


CREATE INDEX BugsCatalog ON Bugs(summary) INDEXTYPE IS CTSSYS.CTXCAT 
PARAMETERS( 'BugsCatalogSet '); 


CATSEARCHO) 操 作 符 分 别 接受 两 个 参数 来 搜索 索引 列 和 结构 化 列 的 集合 。 


Search/soln/oracle/ctxcat-search.sql 


SELECT * FROM Bugs 
WHERE CATSEARCH(summary, '(crash save)', 'status = "NEW"') > 0; 


DCTXXPATH 
这 种 类 型 的 索 5| 是 针对 XML 文档 搜索 而 设计 的 ， 使 用 existsNode() 操 作 符 。 


Search/soln/oracle/ctxxpath.sql 
CREATE INDEX BugTestXm|l ON Bugs(testoutput) INDEXTYPE IS CTSSYS.CTIXXPATH:; 


SELECT * FROM Bugs 
WHERE testoutput.existsNode('/testsuite/test[@status="fail1"]') > 0; 


DD CTXRULE 
假设 在 数据 库 中 存 了 大 量 的 文档 ， 然 后 需要 根据 文档 内 容 进 行 分 类 。 
使 用 CTXRULE 索引 ， 你 可 以 设计 分 析 文 档 的 规则 并 返回 文档 的 分 类 信息 。 同 时 ， 你 可 
以 提供 一 些 示例 文档 以 及 对 应 的 分 类 概念 ， 然 后 让 Oracle 去 分 析 这 个 规则 并 应 用 到 其 
他 文档 上 去 。 你 其 至 可 以 完全 让 这 个 过 程 自 动 化 ， 让 Oracle 去 分 析 文 档 结 构 然后 自动 
J 
如 何 使 用 CTXRULE 不 在 本 书 的 讨论 疙 围 内 。 

Microsoft SQL Server 的 全 文 搜索 


SQL Server 2000 及 后 续 版 本 支持 全 文 索 ?| ， 它 的 配置 相对 复杂 ,包括 了 语言 、 同 义 词 库 和 目 
动 数据 同步 选项 。SQL Server 提供 了 一 系列 的 存储 过 程 来 创建 全 文 索 ?|， 可 以 使 用 CONTAINS O 
操作 符 来 使 用 全 文 索 引 。 


要 执行 对 包含 crash 的 Bug 进行 搜索 的 例子 ， 首 先 要 做 的 就 是 启用 全 文 特性 ， 然 后 在 数据 库 
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Search/soln/microsoft/catalog.sql 


EXEC sp_fulltext_ database 'enable' 
EXEC sp_fulltext catalog 'BugsCatalog', " create 


接着 ， 为 Bugs 表 定 义 一 个 全 文 索 引 ， 将 列 加 入 到 索引 中 ， 然 后 激活 索引 : 
Search/soln/microsoft/create-index.sql 


EXEC sp_fulltext table 'Bugs', 'create', 'BugsCatalog', 'bug_id' 
EXEC sp_fulltext _ column 'Bugs', 'summary', 'add', '2057" 

EXEC sp_fulltext _ column 'Bugs', 'description', 'add', '2057" 
EXEC sp_fulltext table 'Bugs', "actTvate 


启用 全 文 索 引 的 目 动 同步 功能 ， 从 而 对 索引 | 列 的 操作 会 同时 影响 到 索引 , 然后 就 可 以 开始 寺 
充 索 5|。 这 会 在 后 台 执 行 ， 因 而 需要 花 点 时 间 才 能 使 用 索引 。 


Search/soln/microsoft/start.sql 


EXEC sp_fulltext table 'Bugs', 'start change tracking’' 
EXEC sp_fulltext table 'Bugs', 'start background_updateindex' 
EXEC sp_fulltext table 'Bugs', 'start full' 


最 后 ， 使 用 CONTAINS OQ 操作 符 执行 查询 : 


Search/soln/microsoft/search.sql 


SELECT * FROM Bugs WHERE CONTAINS(summary, '"crash"'); 

PostgreSQL 的 文本 搜索 

PostgreSQL 8.3 提供 了 一 个 复杂 的 可 大 量 配置 的 方式 ， 来 将 文本 转化 为 可 搜索 的 词汇 集合 ， 
并 且 让 这 些 文档 能 够 进行 模式 匹配 搜索 。 

为 了 最 大 地 提升 性 能 ， 你 需要 将 内 容 存 两 份 : 一 份 为 原始 文本 格式 ， 男 一 份 为 特殊 的 
TSVECTOR 类 型 的 可 搜索 格式 。 





Search/soln/postgresql/create-table.sql 


CREATE TABLE Bugs ( 
bug_id SERIAL PRIMARY KEY ， 
summary VARCHAR(80 ) ， 
description TEXT, 
ts _bugtext TSVECTOR 
-- other columns 


2 
你 需要 确保 TSVECTOR 列 的 内 容 和 你 所 想 要 搜索 的 列 的 内 容 同 步 。PostgreSQL 提供 了 一 个 内 
置 的 触发 如 来 简化 这 一 操作 : 
Search/soln/postgresql/trigger.sql 


CREATE TRIGGER ts_ bugtext BEFORE INSERT OR UPDATE ON Bugs 
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FOR EACH ROW EXECUTE PROCEDURE 
tsvector update trigger(ts bugtext, ‘pg catalog.english', summary, descript1ion); 


你 也 应 该 同时 在 TSVECTOR 列 上 创建 一 个 反 向 索引 (GIN): 


Search/soln/postgresql/create-index.sql 


CREATE INDEX bugs_ts ON Bugs USING CIN(ts_ bugtext); 
在 做 完 这 一 切 之 后 ， 训 可 以 在 全 文案 引 的 帮助 下 使 用 PostgreSQL 的 文本 搜索 操作 符 @@ 来 高 
效 地 执行 搜索 查询 : 








Search/soln/postgresql/search.sql 


SELECT * FROM Bugs WHERE ts bugtext QQ to tsquery( 'crash ) ; 
有 很 多 其 他 的 选项 来 目 定义 可 搜索 的 内 容 、 搜 索 查 询 和 搜索 结 朱 。 
SQLite 的 全 文 搜索 (FTS) 


SQLite 中 的 标准 表 结 构 并 不 支持 高 效 的 全 文 搜索 ， 但 你 可 以 使 用 SQLite 的 一 个 可 选 扩展 组 
件 来 存储 可 搜索 的 文本 。 这 些 内 容 会 存储 在 一 个 特殊 的 虚拟 角 结 构 中 。 它 有 三 个 版 本 的 扩展 ， 
FTS1、FTS2 和 FTS3。 


FTS 扩展 在 标准 的 SQLite 编译 版 本 中 默认 是 未 启用 的 ， 因 此 你 需要 修改 编译 选项 来 局 用 
FTS， 并 重新 编译 SQLite。 比 如 ， 在 Makefile.in 中 增加 如 下 内 容 ， 然 后 编译 SQLite。 





Search/soln/sqglite/maketfile.in 


TCC += -DSQLITE_ CORE=1 
TCC += -DSQLITE_ ENABLE_FTS3=1 


一 旦 你 有 了 一 个 启用 FTS 的 SQLite 版 本 ， 就 可 以 创建 一 个 虚拟 表 来 存储 可 搜索 文本 。 任 何 
数据 类 型 、 约 束 或 者 其 他 列 选项 将 在 搜索 时 被 名 略 。 
Search/soln/sqglite/create-table.sql 


CREATE VIRTUAL TABLE BugsText USING fts3(summary, descript1ion); 


如 来 你 在 为 另 一 张 表 建 立 索 引 ( 比 如 这 个 例子 中 的 Bugs 表 ) ,就 必须 将 数据 复制 到 虚拟 表 中 。 
FTS 的 虚拟 表 默 认 会 包含 一 个 主键 列 ， 叫 做 docid， 因 此 可 以 将 原 表 中 的 行 关联 起 来 。 





Search/soln/sqlite/insert.sql 


INSERT INTO BugsText (docid, summary, descript1ion) 
SELECT bug_1id, summary, description FROM Bugs; 


现在 你 可 以 对 FTS 的 虚拟 表 BugsText 进行 查询 ， 使 用 一 个 高 效 的 全 文 搜索 断言 MATCH， 然 
后 把 匹配 的 行 和 原 表 Bugs 进行 联结 。 将 FTS 表 的 名 字 当 成 一 个 虚拟 的 列 来 进行 针对 任意 列 的 模 
去 匹配 。 
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Search/soln/sqglite/search.sql 


SELECT b.x FROM BugsText 七 JOIN Bugs b ON (t.docid = b.bug_ id) 
WHERE BugsText MATCH “crash ; 


匹配 条 件 同 时 也 支持 功能 有 限 的 布尔 表达 式 .。 


Search/soln/sqlite/search-boolean.sql 


SELECT * FROM BugsText WHERE BugsText MATCH ‘crash -save'; 


17.5.2 ”第 三 方 搜索 引擎 


如 采 需 要 搜索 功能 的 代码 对 不 同 的 数据 库 都 通用 ， 那 就 需要 一 个 独立 于 SQL 数据 库 的 搜索 
引擎 。 这 一 节 简 要 介绍 两 个 产品 : Sphinx Search 和 Apache Lucene。 


Sphinx Search 


Sphinx Search (http:/www.sphinxsearch.comy/) 是 一 个 开源 的 搜索 引擎， 用 于 和 MySQL 及 
PostgreSQL 配套 使 用 。 在 本 书 出 版 时 , 一 个 非 官 方 的 Sphinx Search 补丁 支持 开源 的 Firebird 数据 
库 。 可 能 在 将 来 的 版 本 中 ， 这 个 搜索 引擎 会 考虑 支持 其 他 的 数据 库 。 


在 Sphinx Search 中 ， 构 建 守 5 引 和 搜索 都 很 快 ， 而 且 它 也 支持 分 布 式 查询 。 对 于 数据 不 和 常 更 
新 且 要 求 高 可 扩展 性 的 程序 来 说 ，Sphinx Search 是 个 很 好 的 选择 。 


你 可 以 使 用 Sphinx Search 来 索引 存在 于 MySQL 数据 库 中 的 数据 。 通 过 修改 sphinx.conf 
中 的 几 个 字段 ， 你 可 以 指定 对 应 的 数据 库 。 你 必须 写 一 些 SQL 查询 脚本 为 构建 索引 的 操作 获取 
数据 。 这 个 查询 要 求 第 一 列 为 一 个 整 型 主键 。 你 可 以 声明 一 些 属性 列 来 对 结果 进 行 约束 或 者 排序 。 
余下 的 列 就 是 用 来 进行 全 文 索 引 有 的 。 最 后 ， 男 一 个 SQL 查询 脚本 通过 给 定 的 主键 代码 $id， 从 数 
据 库 中 获取 完整 的 记录 。 


Search/soln/sphinx/sphinx.conf 





source bugsrc 


{ 
type = mysql 
sql_user = bugsuser 
sql_pass = XYZZY 
sql_db = bugsdatabase 
sql_query 三 \ 
SELECT bug_1id, status, date reported, summary, description \ 


FROM Bugs 
sql_attr_timestamp 
sql_attr_str2ordinal 
sql_query_info 

’ 


date_reported 
status 
SELECT * FROM Bugs WHERE bug_ id = $id 


index bugs 
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{ 
source 
path 

上 


在 配置 完成 sphinx.conf 之 后 ， 你 就 可 以 在 shell 中 使 用 indexer 命令 创建 索 351 了: 


Search/soln/sphinx/indexer.sh 


bugsrc 
/opt/local/var/db/sphinx/bugs 


indexer -c sphinx.conf bugs 
你 可 以 使 用 search 命令 对 索引 | 进行 搜索 : 
Search/soIn/sphinx/search.sh 

search -b "crash -save” 

Sphinx Search 也 有 一 个 守护 进程 以 及 对 应 的 API 给 常用 的 脚本 语言 (诸如 PHP、Perl 和 Ruby) 
使 用 。 当 前 版 本 的 最 主要 问题 是 ,目前 的 索引 算法 不 文 持 高 效 的 增 量 更 新 。 在 一 个 经 常 更 新 的 数 
据 源 上 使 用 Sphinx Search 需要 一 些 折 中 的 处 理 办 法 。 比 如 说 ， 将 可 搜索 表 拆 分 成 两 张 表 ， 第 一 
张 表 存储 不 变 的 主体 历史 数据 ,第 二 张 表 存储 一 个 较 小 的 当前 数据 的 集合 。 当 数据 逐 湖 增长 的 时 
候 ， 就 需要 重建 索引 。 然 后 你 的 程序 必须 对 两 个 Sphinx Search 索引 | 进行 搜索 。 


Apache Lucene 


Lucene (http://lucene.apache.org/) 是 一 个 针对 Java 程序 的 成 熟 搜 索引 擎 。 还 有 一 些 类 似 的 项 
只 是 所 使 用 的 语言 不 同 ， 包 括 C++、C#、Perl、Python、Ruby 和 PHP。 
Lucene 使 用 其 独 有 的 格式 为 文本 文档 创建 索引 。Lucene 索引 不 和 元 数据 保持 同步 。 如 果 你 
插入 、 删 除 或 者 更 新 数据 库 中 的 数据 ， 必 须 同 时 也 对 Lucene 索引 进行 对 应 的 操作 。 

使 用 Lucene 搜索 引擎 有 点 像 使 用 一 台 汽 车 发 动机 ， 必 须要 有 一 堆 相 关 技术 支持 才能 让 它 工 
作 。Lucene 不 会 直接 从 SQL 数据 库 中 读 取 数据 集合 ， 你 必须 手动 往 Lucene 索引 | 中 写 入 文档 。 比 
如 ， 你 可 以 执行 一 个 SQL 查询 ， 然 后 对 结果 中 的 每 一 行 ， 创 建 一 个 Lucene 文档 对 象 然后 保存 到 
Lucene 索引 中 。 你 可 以 通过 Lucene 的 Java API 来 使 用 对 应 的 功能 。 

所 下 的 是 ，Apache 提供 了 另 一 个 项 目 叫 做 Solr (http://lucene.apache.org/solr/)。Solr 是 一 个 
Lucene 索引 的 网 关 服 务 。 你 可 以 问 Solr 添 加 文档 或 者 使 用 一 个 REST 风格 的 接口 提交 查询 请 求 ， 
然后 束 可 以 使 用 任意 的 语言 来 调用 Lucene 的 服务 了 。 


你 也 可 以 将 Solr 配置 成 直接 连接 到 数据 库 ， 执 行 一 个 查询 操作 ， 然 后 使 用 Data- 
ImportHandler 工具 来 对 结果 进行 索引 。 


实现 自己 的 搜索 引擎 


假设 你 不 想 使 用 不 同 数据 库 特有 的 搜索 特性 ， 也 不 想 安装 一 个 独立 的 搜索 引擎 产品 。 你 需 


0 
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要 一 个 高 效 的 、 与 数据 库 品 牌 无 关 的 解决 方案 来 进行 文本 搜索 。 在 本 市 中 ， 我 们 将 使 用 一 个 称 
ey 
关系 中 ， 索 引 将 这 些 单词 和 包 偏 这些 单 词 的 文本 关联 起 来 。 也 就 是 说 ，crash 这 个 单词 出 现在 很 
多 Bug 摘 述 中 , 然后 每 个 Bug 摘 述 义 包含 很 多 别 的 关键 字 。 这 一 市 就 来 介绍 如 何 设 计 反 问 索 引 。 

首先 ， 定 义 一 张 Keywords 表 来 记录 所 有 用 户 用 来 搜索 的 关键 字 ， 然 后 定义 个 交叉 表 
BugsKewords 来 建立 多 对 多 的 关系 : 


Search/soln/inverted-index/create-table.sqgl 





CREATE TABLE Keywords ( 
keyword_id SERIAL PRIMARY KEY, 
keyword VARCHAR(C40) NOT NULL ， 
UNIQUE KEY (keyword) 

73 


CREATE TABLE BugsKeywords 人 
keyword_1d BIGINT UNSIGNED NOT NULL, 
bug_1d BIGINT UNSIGNED NOT NULL ， 
PRIMARY KEY (keyword 1d, bug_1d), 
FOREIGN KEY (keyword 1d) REFERENCES Keywords (keyword_1d), 
FOREIGN KEY (bug id) REFERENCES Bugs (bug_id) 
接 下 来 , 将 每 个 关键 字 和 其 所 匹配 到 的 Bug 添加 到 BugsKeywords 表 中 。 我 们 可 以 使 用 LIKE 
或 者 正则 表达 式 来 执行 子 字 符 串 匹配 查询 ， 获 得 我 们 所 需要 的 匹配 记录 。 这 种 方式 不 比 在 17.2 
市 中 所 说 的 查询 有 更 多 的 开销 , 但 由 于 我 们 只 执行 一 次 这 样 的 查询 ， 因 此 省 下 了 很 多 时 间 。 如 果 


我 们 将 查询 结 采 存储 在 交叉 表 中 ， 所 有 之 后 对 同一 个 关键 字 的 搜索 都 会 快 很 多 。 


接 下 来 ， 我 们 写 一 个 存储 过 程 来 简化 对 一 个 给 定 关 键 字 的 搜索 "。 如 果 给 定 的 关键 字 已 经 被 
搜索 过 了 ， 这 个 查询 就 会 a 了 BugsKeywords 表 中 的 记录 就 是 包含 这 个 给 定 的 关键 字 的 文 
0 如 果 还 没 人 搜索 过 定 的 关键 字 , 我 们 就 需要 使 用 原始 的 方法 对 所 有 的 文本 记录 进 

行 全 文 搜 索 。 


Search/soln/inverted-index/search-proc.sql 











CREATE PROCEDURE BugsSearch(keyword VARCHAR(40)) 
BEGIN 
SET Qkeyword = keyword; 


0 PREPARE sl1 FROM "SELECT MAXCKeyword id) INTO @k FROM Keywords 
WHERE keyword = 
EXECUTE sl1 USING Qkeyword; 
DEALLOCATE PREPARE sl1; 


@ 这 个 例子 使 用 MySQL 的 语法 来 编写 存储 过 程 。 
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IF (@k IS NULL) THEN 
© PREPARE s2 FROM 'INSERT INTO Keywords (keyword) VALUES (?)'; 
EXECUTE s2 USING Qkeyword; 
DEALLOCATE PREPARE s2; 
© SELECT LAST_INSERT_ID() INTO Qk; 


0 PREPARE s3 FROM ‘INSERT INTO BugsKeywords (bug_1d, keyword_1d) 
SELECT bug_ id，? FROM Bugs 
WHERE summary REGEXP CONCATC' '[[:<:]]"',?, "'[[:>:]]"') 
OR description REGEXP CONCATC" '[[:<:]]"", ?, "'[[:>]]'')'; 
EXECUTE s3 USING @Q@k, Qkeyword, Qkeyword; 
DEALLOCATE PREPARE s3; 
END IF; 


© PREPARE s4 FROM "SELECT b.* FROM Bugs b 
JOIN BugsKeywords k USING (bug_1d) 
WHERE k.keyword id = ?'; 
EXECUTE s4 USING Qk; 
DEALLOCATE PREPARE s4; 
END 


@O@ 搜索 用 户 指定 关键 字 。 从 keywords、keyword_id 或 NULL 返回 整 型 主键 ， 如 果 这 个 词 之 
前 未 出 现 过 。 

人 对 如 果 未 找到 该 词 ， 将 它 当 做 新 词 插入 。 

全 查询 keywords 生成 的 主键 值 。 

人 @@ 通过 搜索 有 新 关键 字 的 Bug 来 填 入 交叉 表 。 

四 最后， 查询 符合 keyword_id 的 整 行 ， 无 论 这 个 关键 字 存 在 或 者 需要 当做 新 词 条 插入 。 


现在 我 们 可 以 执行 这 个 存储 过 程 ， 然 后 传人 想 要 的 关键 字 。 这 个 存储 过 程 会 返回 匹配 到 的 
Bug， 不 论 它 是 需要 搜索 全 表 来 找到 匹配 的 Bug 然后 追加 到 交叉 表 中 ， 本 
中 歼 取 相应 的 结果 。 


Search/soln/inverted-index/search-proc.sql 





CALL BugsSearch( 'crash '); 


这 个 方案 还 有 一 个 需要 注意 的 是 : 在 有 新 文档 添加 到 数据 库 中 时 , 我 们 需要 定义 一 个 触发 器 
以 填充 交叉 表 。 如 果 你 需要 支持 对 Bug 描述 的 更 新 操作 ， 还 要 写 一 个 触发 右 去 重新 分 析 文 本 ， 然 
后 添加 或 删除 BugsKeywords 表 中 的 记录 。 


Search/soln/inverted-index/trigger.sql 


CREATE TRICGCER Bugs_Insert AFTER INSERT ON Bugs 
FOR EACH ROW 
BEGIN 
INSERT INTO BugsKeywords (bug_1d, keyword_1d) 
SELECT NEW.bug_1id, k.keyword 1d FROM Keywords k 
WHERE NEW.description REGEXP CONCATGC'[[:<:J]', k.keyword, '[[:>:J]') 
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OR NEW.summary REGEXP CONCATC'[[:<:j]', k.keyword, '[[:>:]]'); 
END 


这 个 关键 字 列 表 会 随 着 用 户 不 断 地 搜索 而 自动 增长 , 因此 我 们 不 必 将 每 个 在 知识 库 中 找到 的 
单词 都 加 到 列表 中 去 。 从 另 一 个 角度 来 说 ， 如 末 我 们 可 以 预测 一 些 关 键 字 ， 就 可 以 简单 地 在 程序 
急 始 化 的 时 候 执 行 一 下 这 儿 个 关键 字 的 搜索 。 这 样 ， 这 部 分 的 时 间 开 销 就 不 会 由 用 户 来 承担 了 。 

在 本 鞋 最 开始 的 知识 库 的 例子 中 我 使 用 了 反 疝 索引 ,我 还 在 Keywords 表 中 添加 了 额外 的 一 列 


num_searches。 这 一 列 在 每 次 这 个 关键 字 被 搜索 时 会 日 增 , 我 使 用 这 一 列 来 跟踪 搜索 关键 字 的 分 
布 。 





你 不 必 使 用 SQL 来 解决 所 有 问题 。 
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实体 不 应 不 必要 地 增殖 。 


你 的 老板 正和 他 的 老板 打 电 话 ， 然 后 他 示意 你 过 去 。 他 用 手记 住 了 话 简 ， 小 声 对 你 说 :“ 执 
行 委 员 会 在 开 预 算 会 议 , 我 们 可 能 要 被 裁员 ,除非 我 能 有 数据 告诉 副 总 裁 我 们 的 部 门 一 直 都 很 忙 。 
我 需要 知道 我 们 同时 在 开发 多 少 个 项 目 , 多 少 个 程序 员 在 修补 Bug， 每 个 程序 员 平 均 修补 多 少 个 
Bug， 以 及 多 少 修复 了 的 Bug 是 由 用 户 报告 的 。 现 在 就 要 上 | 

你 飞 奔 至 座位 ， 打 开 SQL 工具 ， 开 始 写 查 询 语句 。 你 想 要 立刻 得 到 所 有 的 数据 ， 于 是 
你 写 了 一 个 很 复杂 有 的 查询 脚本 ,希望 能 尽 可 能 减少 重复 的 工作 量 ， 能 更 快 地 得 到 数据 。 

Spaghetti-Query/intro/report.sql 


SELECT COUNT(bp.product_1d) AS how many_products, 
COUNT(dev.account_1d) AS how many_developers, 
COUNT(b.bug_1d)/COUNT(dev.account_1d) AS avg_bugs_per_developer., 
COUNT(cust.account_1d) AS how many_customers 

FROM Bugs b JOIN BugsProducts bp ON (b.bug_ id = bp.bug_1id) 

JOIN Accounts dev ON (b.assigned to = dev.account_1d) 

JOIN Accounts cust ON (b.reported by = cust.account_1d) 

WHERE cust.email NOT LIKE ‘%@example.com’ 

GROUP BY bp.product_1d; 

数据 出 来 了 , 但 看 上 去 是 错 的 。 我 们 怎么 会 有 儿 十 个 产品 ? 怎么 可 能 平均 每 个 程序 员 正 好 修 

复 1.0 个 Bug? 你 的 老板 要 的 不 是 客户 数量 ， 他 要 得 是 客户 报告 的 Bug 数量。 这些 数据 怎么 会 是 
这 样 呢 ?” 这 个 查询 比 你 所 想 的 要 更 加 复杂 。 


你 的 老板 挂 挥 了 电话 。' 无所谓 了 ,，” 他 叹 奶 过，“ 太 晚 了 。 我 们 收拾 下 果子 吧 。 


18.1 目标 : 减少 SQL 查询 数量 
SQL 开发 人 员 经 常会 被 同一 个 问题 困扰 :“ 我 要 怎么 用 一 个 查询 来 完成 这 件 事 情 ? ”这 个 回 
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题 基 本 上 在 任务 中 都 会 被 所 及 。 受 过 塔 训 的 程序 员 认 为 ， 一 个 SQL 查询 是 困难 的 、 复 杂 有 的 和 耗 
资源 的 ， 那 么 两 个 SQL 碍 询 就 是 糟糕 度 乘 以 二 。 用 多 于 两 个 的 SQL 碍 询 来 解决 问题 根本 不 在 芳 
虑 范围 内 。 

程序 员 不 能 减少 他 们 任务 的 复杂 度 ， 但 他 们 想 要 人 向 单 化 其 解决 方案 。 他 们 使 用 “优雅 ”或 者 
高效” 这 些 形容 词 来 描述 他 们 的 目标 ， 并 且 认 为 使 用 一 条 SQL 查询 就 能 完成 目标 。 


18.2” 反 模式 : 使 用 一 步 操 作 解 决 复杂 问题 


SQL 是 一 门 极 具 表 现 力 的 语言 一 一 你 可 以 在 单个 SQL 查询 或 者 单条 语句 中 完成 很 多 事情 。 
但 这 并 不 意味 着 必须 踢 制 只 使 用 一 行 代码 ， 或 者 认为 使 用 一 行 代码 就 搞定 每 个 任务 是 个 好 主意 。 
你 在 使 用 其 他 语言 的 时 候 也 有 这 样 的 习惯 吗 ? 应 该 没有 吧 。 


18.2.1 副作用 

通过 一 个 查询 来 获得 所 有 结 末 的 常见 后 来 就 是 得 到 了 一 个 备 卡 儿 积 。 当 查询 中 的 两 张 表 之 间 
没有 条 件 限制 其 天 系 时 , 束 会 发 生 这 样 的 情况 。 疫 有 对 应 的 限制 而 直接 使 用 两 张 表 进行 联结 碍 询 ， 
就 会 得 到 第 一 张 表 中 的 每 一 行 和 第 二 张 表 中 的 每 一 行 的 一 个 组 合 。 每 一 个 这 样 的 组 合 就 会 成 为 结 
末 集 中 的 一 行 ， 最 终 你 就 得 到 一 个 行 数 多 很 多 的 结 琳 集 。 
我 们 来 看 个 例子 。 假 设 我 们 想 要 查询 Bugs 数据 库 ， 计 算 一 个 给 定 的 产品 有 多 少 Bug 被 修复 
多 少 Bug 正 处 于 打开 状态 。 很 多 程序 员 可 能 会 写 出 如 下 的 这 条 语句 : 


Spaghetti-Query/anti/cartesian.sql 














了 


3 


SELECT p.product_ 1d， 
COUNT(f.bug_1d) AS count_fixed, 
COUNT(o.bug_1d) AS count_open 

FROM BugsProducts p 

LEFT OUTER JOIN Bugs f ON (p.bug_id 

LEFT OUTER JOIN Bugs o ON (p.bug_id 

WHERE p.product 1d = 1 

GROUP BY p.product_1d; 


你 磁 马 知道 ， 事 实 上 对 于 给 定 的 这 个 产品 ， 有 12 个 Bug 被 修复 了 ， 有 7 个 Bug 征 打开 的 。 
因此 ， 结 采 看 上 去 很 耐人寻味 : 


“FTXFD ) 
"OPEN  ) 


f.bug_ id AND f.status 
o.bug_ id AND o.status 





Product_id count_fixed count_open 
1 84 84 


是 什么 导致 结 末 和 预期 相差 十 万 八 千里 ? 没 那 么 巧 ， 正 好 是 84 = 12 x 7。 这 个 例子 将 
Products 表 和 两 个 不 同 的 Bugs 表 有 的 子 集 联合 起 来 ， 结 琳 却 是 那 两 个 子 集 的 苗 卡 儿 积 。12 个 
FIXED 状态 的 Bug 中 的 每 一 个 和 一 个 OPEN 状态 的 Bug 凑 成 了 一 对 。 
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你 可 以 想象 ， 备 卡 儿 积 和 图 18-1 所 画 的 一 样 。 每 条 线 链接 了 一 个 已 修复 的 Bug 和 一 个 打开 
的 Bug， 然 后 成 为 了 临时 结 末 集 中 的 一 行 (在 分 组 语句 执行 之 前 )。 我 们 可 以 注释 掉 GROUP BY 子 
名 和 那些 聚合 函数 来 查看 这 个 查询 的 结 坟 。 





18-1 被 修复 与 打开 Bug 的 笛 卡 儿 积 


Spaghetti-Query/anti/cartesian-no-group.sql 


SELECT p.product id，f.bug_ id AS fixed, o.bug_id AS open 
FROM BugsProducts p 

JOIN Bugs f ON (p.bug id = f.bug_ id AND f.status = “FIXED  ) 
JOIN Bugs o ON (p.bug id = o.bug_ id AND o.status OPEN ) 
WHERE p.product 1d = 工 ; 


这 个 查询 唯一 描述 的 关系 是 BugsProducts 表 和 每 个 Bugs 子 集 之 间 的 关系 。 设 有 条 件 来 约 
束 每 个 FIXED 状态 的 Bug 和 每 个 OPEN 状态 的 Bug 是 否 能 进行 配对 ， 而 默认 情况 下 它们 是 可 以 
配对 的 。 最 终 的 结果 是 得 到 一 个 12 乘 以 7 的 结果 集 。 


当 你 尝试 着 执行 一 个 类 似 的 双重 任务 的 查询 时 , 很 容易 就 得 到 一 个 半 料 之 外 的 苗 卡 儿 积 。 如 
本 你 答 试 在 一 个 查询 中 完成 更 多 不 相关 的 工作 , 最 终 的 结 来 可 能 是 在 此 基础 上 再 多 乘 出 一 个 华 卡 
儿 积 。 


18.2.2 那 好 像 还 不 够 …… 


除了 你 会 得 到 错误 结果 之 外 ， 这些 查询 也 非常 难 写 、 难 以 修改 和 难以 调试 。 数据 库 查 询 请 求 
的 日 益 增 加 应 该 是 预料 之 中 的 事 。 经 理 们 想 要 更 复杂 的 报告 以 及 在 用 户 界 面 上 添加 更 多 的 字段 。 
如 来 你 的 设计 很 复杂 ,并 且 是 一 个 单一 查询 ， 要 扩展 它们 就 会 很 费时 费力 。 不 论 对 你 还 古 对 项 目 
来 说 ， 时 间 花 在 这 些 事情 上 面 不 值得 。 
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此 外 ， 还 有 运行 时 开销 。 一 条 精心 设计 的 复杂 SQL 查询 ， 相 比 于 那些 直接 简单 的 查询 来 说 ， 

不 得 不 使 用 很 多 的 JOIN、 关 联 子 查询 和 其 他 让 SQL 引擎 难以 优化 和 快速 执行 的 操作 符 。 程 序 员 

觉 地 认为 越 少 的 SQL 执行 次 数 性 能 越 好 ， 如 果 SQL 查询 的 复杂 度 都 相同 时 的 确 如 此 。 但 另 一 

方面 ,一 个 怪兽 般 的 SQL 查询 的 开销 可 能 成 指数 级 别 增长 ， 而 使 用 多 个 简单 的 查询 却 有 更 好 的 
效 坟 。 


18.3 如何 识 别 反 模式 


如 条 你 听见 项 目 组 成 员 说 了 下 面 这些 话 , 可 能 就 是 使 用 了 “意大利 面条 式 碍 询 这 个 反 模 却 。 


D “为 什么 我 的 求 和 、 计 数 返 回 的 结 未 异 遂 地 大 ? 

一 个 半 料 之 外 的 两 个 联结 查询 的 数据 集 生 成 的 苗 卡 儿 积 。 

DOD“ 我 一 整 天 都 在 和 这 个 变态 的 查询 语句 做 斗争 !* 

SQL 并 不 是 那么 难 有 的 ， 真 的 ! 如 末 你 和 单条 SQL 查询 纠结 了 很 长 时 间 ， 应 该 重新 考虑 你 
的 实现 方式 。 

D 我们 不 能 在 数据 库 报 表 中 再 加 入 任何 新 东西 了 , 因为 对 碍 询 语句 的 修改 要 化 很 长 时 间 。 
写 这 个 查询 语句 的 人 要 永远 为 他 所 写 的 代码 负 贡 ， 即 使 他 们 已 经 加 入 到 别 的 项 目 中 去 了 。 
那个 写 这 段 代码 的 人 可 能 就 是 你 ， 因 此 别 把 查询 写 得 如 此 复杂 以 至 于 别人 无 法 维护 | 

口 “ 试 试看 再 加 一 个 DISTINCT 进去 ? 

要 修正 由 于 备 卡 儿 积 所 市 来 的 数据 集 暴 普 , 程序 员 通 第 使 用 DISTINCT 这 个 关键 字 作 为 一 
个 查询 修正 或 者 一 个 聚合 函数 来 减少 重复 。 这 个 方法 能 够 隐 蕊 挥 那个 难看 的 查询 的 踪迹 ， 
但 导致 RDBMS 做 了 更 多 的 工作 来 生成 排序 、 去 重 的 临时 表 。 


另 一 个 表明 一 个 查询 可 能 是 意大利 面条 却 碍 询 的 证 据 征 它 的 执行 时 间 很 长 。 低 劣 的 性 能 可 能 
是 其 他 问题 的 一 个 征兆 ， 但 你 在 调查 时 应 该 考虑 到 可 能 在 共 个 SQL 语句 中 做 了 太 多 事情 。 


18.4 ”合理 使 用 反 模式 


需要 将 一 个 复杂 有 的 查询 任务 放 在 一 个 SQL 查询 中 完成 的 最 第 见 原 因 ， 是 你 正在 使 用 一 个 编 
程 框架 或 者 一 个 可 视 化 组 件 库 直接 和 数据 源 相连 , 然后 在 程序 中 直接 展示 数据 。 人 简单 的 商务 智能 
和 报表 工具 都 属于 这 一 分 类 中 ， 但 大 多 数 高 级 的 BI 软件 可 以 从 多 个 数据 源 合并 数据 。 

组 件 或 者 报表 工具 通常 假设 单个 SQL 查询 仅 用 来 完成 一 个 简单 的 任务 ,但 它 鼓 励 你 去 设计 
更 庞大 的 碍 询 来 生成 报 各 中 的 所 有 数据 。 如 采 你 使 用 茶 个 这 样 的 报表 程序 ,就 可 能 被 迫 去 写 一 个 
更 复杂 的 SQL 查询 ， 而 没有 机 会 写 代码 操作 结 坟 集 。 

如 条 报表 需求 太 复杂 而 不 能 用 单个 SQL 碍 询 完成 ， 更 好 的 方案 可 能 是 生成 多 个 报表 。 如 采 
你 的 老板 不 喜欢 这 样 的 解决 方案 ， 要 提醒 他 报表 的 复杂 度 和 生成 报表 所 伦 的 时 间 古 成 正比 的 。 
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有 了 时候， 你 想 要 在 一 个 SQL 查询 中 得 到 一 个 复杂 的 结 来 ， 是 因为 需要 所 有 的 这 些 结 来 能 排 
序 后 再 组 合 在 一 起 。 在 SQL 碍 询 中 指定 一 个 排序 征 很 简单 的 。 理 论 上 来 说 让 数据 库 来 执行 这 个 
操作 比 你 上 自己 写 代 码 实现 多 个 请 求 结 末 的 排序 要 高 效 得 多 。 


18.5 ”解决 方案 : 分 而 治之 
奥 卡 姆 "在 本 音 开 头 的 名 句 也 称 为 简约 律 。 


当 你 有 两 个 相互 竞争 的 理论 能 得 出 同样 的 结论 ， 那 么 简单 的 那个 更 好 。 


对 于 SQL 来 说 ， 那 意味 着 你 在 两 个 能 得 到 同样 结果 的 查询 之 中 做 选择 时 ， 选 择 更 简单 的 那 
个 。 我 们 在 修正 本 半 的 反 模 式 查 询 时 ， 应 时 刻 谨 记 这 个 定律 。 


18.5.1 一 步 一 个 脚印 


如 来 你 看 不 出 , 在 意外 产生 了 笛 卡 儿 积 的 两 张 表 间 存在 逻辑 关联 关系 , 那 有 一 个 很 简单 的 解 
释 : 根本 就 没有 这 种 关系 。 要 训 免 生成 这 个 备 卡 儿 积 ,你 不 得 不 将 这 个 意大利 面条 式 查 询 拆 分 成 
几 个 小 而 简单 的 查询 。 在 之 前 描述 的 那个 简单 例子 中 ， 我 们 只 需要 两 个 查询 : 








Spaghetti-Query/solIn/split-query.sql 


SELECT p.product_id, COUNT(f.bug_1id) AS count_fixed 

FROM BugsProducts p 

LEFT OUTER JOIN Bugs f ON (p.bug id = f.bug_ id AND f.status = "FTXED  ) 
WHERE p.product 1d = 1 

GROUP BY p.product_id; 


SELECT p.product id, COUNT(o.bug_1d) AS count_open 

FROM BugsProducts p 

LEFT OUTER JOIN Bugs o ON (p.bug_1id = o.bug_id AND o.status = 'OPEN') 
WHERE p.product _ 1d = 1 

GROUP BY p.product_id; 


这 两 个 得 询 的 结 朱 分 别 征 12 和 7， 正 如 我 们 所 希望 的 。 
你 可 能 会 完 得 将 一 个 查询 拆 分 成 多 个 查询 是 一 个 “不 雅 ” 的 解决 方案 , 并 且 略 感 改 届 和 址 憾 ， 
但 你 很 快 就 会 意识 到 ， 在 开发 、 维 护 和 性 能 方面 ， 这 么 做 能 市 来 一 些 积极 的 影 啊 。 
D 这 个 查询 不 会 产生 早先 例子 中 出 现 的 那 种 意外 的 符 卡 儿 积 ， 因 此 很 向 单 地 就 能 确认 这 个 
奏 询 给 出 的 结 采 十 精 确 的 。 





@ William of Ockham， 十 四 世纪 英国 车 名 思想 家 ， 逻 辑 学 家 。 知 有 “ 秽 卡 姆 剃刀 ”理论 。 一 一 编者 注 
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D 当 有 新 的 需求 增加 到 报表 中 时 ， 添 加 另 一 个 简单 的 查询 ， 比 将 更 多 的 计算 整合 到 一 个 已 
经 很 复杂 的 查询 中 去 要 简单 很 多 。 

D SQL 引擎 能 更 容易 和 可 靠 地 对 简单 的 查询 进行 优化 和 执行 。 即 使 整个 工作 看 上 去 像 是 被 
分 割 出 来 的 查询 弄 得 有 上 重复 ， 但 可 能 执行 得 更 快 。 

oD 在 代码 审查 或 者 团队 则 的 培训 交流 时 ， 解 释 儿 个 多 懂 的 查询 要 比 解释 一 个 庞大 复杂 有 的 查 
询 容 多 得 多 。 


18.5.2 ”寻找 UNION 标 记 


你 可 以 将 儿 个 查询 的 结 采 进行 UNION 操作 ， 从 而 最 终 得 到 一 个 结 来 集 。 当 你 确实 想 要 提交 单 
个 查询 并 且 得 到 单个 结 末 集 时 ， 这 么 做 很 有 帮助 ， 比 如 在 需要 保存 查询 结 末 时 。 


Spaghetti-Query/soln/union.sqgl 





(SELECT p.product_ id, f.status, COUNT(f.bug_1id) AS bug_count 

FROM BugsProducts p 

LEFT OUTER JOIN Bugs f ON (p.bug_id = f.bug_id AND f.status = 'FIXED') 
WHERE p.product 1d = 1 

GROUP BY p.product_ id, f.status) 


UNION ALL 


(SELECT p.product id, o.status, COUNT(o.bug_1d) AS bug_count 

FROM BugsProducts p 

LEFT OUTER JOIN Bugs o ON (p.bug_1id = o.bug 1d AND o.status = ‘OPEN') 
WHERE p.product 1d = 1 

GROUP BY p.product_ 1d, o.status) 


ORDER BY bug_count ; 

这 个 查询 的 结果 是 每 个 子 查 询 结 果 联 合 后 所 得 的 。 在 本 例 中 有 两 行 ， 每 行 对 应 一 个 子 查 询 。 
请 记 住 要 额外 地 增加 一 列 来 区 分 不 同 子 查询 的 结果 ， 本 例 中 是 status 这 一 列 。 

仅 在 两 个 子 查询 的 列 属性 是 相互 兼容 的 情况 下 才能 使 用 UNION。 你 不 能 在 查询 的 中 间 改 变 列 
的 数值 、 名 字 或 者 数据 类 型 ， 因 此 需要 确保 所 有 行 的 所 有 列 都 是 相同 的 。 如 果 你 发 现 定义 了 一 个 
列 了 的 别名 ， 类 似 于 bugcount_or_customerid_or_nul11, 很 有 可 能 就 是 你 对 不 兼容 的 两 个 结果 和 集 
使 用 了 UNION。 


18.5.3 解决 老板 的 问题 


怎么 解决 这 个 统计 项 目 信 息 的 紧急 任务 ? 你 的 老板 说 :“ 我 需要 知道 我 们 同时 在 开发 多 少 个 
项 目 ， 多 少 个 程序 员 在 修补 Bug， 每 个 程序 员 平 均 修 补 多 少 个 Bug, 以 及 多 少 修复 了 的 Bug 是 由 
用 户 报告 的 。 
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做 好 的 解决 方案 就 是 拆 分 所 有 的 这 些 工作 。 
口 多 少 产 品 : 
Spaghetti-Query/soln/count-products.sqgl 


SELECT COUNT(*x) AS how many_products 
FROM Products; 


D 多 少 开 发 人 员 在 参与 修补 Bug: 


Spaghetti-Query/soln/count-developers.sql 


SELECT COUNT(CDISTINCT assigned to) AS how many_developers 
FROM Bugs 
WHERE status = "FIXED'; 


口 平均 每 个 程序 员 修 复 了 多 少 Bug: 
Spaghetti-Query/soln/bugs-per-developer.sql 


SELECT AVG(bugs_ per_developer) AS average bugs_ per_developer 
FROM (SELECT dev.account_1d, COUNT(*x) AS bugs_per_developer 
FROM Bugs b JOIN Accounts dev 
ON (b.assigned to = dev.account_1d) 
WHERE b.status = 'FIXED' 
GROUP BY dev.account 1d) 七 ; 


D 多 少 修复 了 的 Bug 是 由 客户 报告 的 : 
Spaghetti-Query/soln/bugs-by-customers.sql 


SELECT COUNT(*x) AS how many_customer_bugs 
FROM Bugs b JOIN Accounts cust ON (b.reported by = cust.account_ 1d) 
WHERE b.status = 'FIXED' AND cust.email NOT LIKE ‘%@example.com"'; 


其 中 的 几 个 查询 其 本 身 就 已 经 足够 复杂 了 ， 要 再 将 它们 合并 到 单个 输出 结 采 集中 ， 人 简直 就 是 二 


区 | 


18.5.4 使 用 SQL 自动 生成 SQL 


当 你 拆 分 一 个 复杂 的 SQL 查询 时 ， 得 到 的 结 来 可 能 是 很 多 相似 的 查询 ， 可 能 仅仅 在 数据 
类 型 上 面 有 所 不 同 。 编 写 所 有 的 这 些 查 询 古 很 之 味 的 ， 因 此 ， 最 好 能 够 有 个 程序 自动 生成 这 些 
人 CT 


代码 生成 是 一 种 输出 一 段 新 的 可 以 编译 或 者 执行 的 代码 的 写 代码 技术 。 如 末 手 写 这 些 代码 很 
费力 ， 代 码 生 成 技术 就 古 非 党 有 价值 的 。 一 个 代码 生成 带 可 以 帮 你 去 除 重复 的 工作 。 


多 表 更 新 
在 做 咨询 时 ， 我 被 叫 去 为 另 一 个 部 门 的 经 理解 决 一 个 紧急 的 SQL 问题 。 
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我 走 进 了 经 理 办 公 室 ， 看 到 他 穷 途 末路 的 苦恼 样子 。 我 们 简单 地 互相 问候 了 一 下 ， 
他 就 开始 向 我 解释 他 所 面临 的 困境 :“ 我 希望 你 能 快速 地 解决 这 个 问题 。 我 们 的 库存 系 
统 已 经 下 线 一 整 天 了 。 他 并 不 是 SQL 的 业余 开发 者 ， 但 他 告诉 我 他 已 经 在 一 个 用 来 同 
时 更 新 大 量 记录 的 SQL 语 身上 花 了 好 几 个 小 时 了 ， 


他 的 问题 是 他 没 办 法 在 UPDATE 语 名 上 对 所 有 的 值 使 用 固定 的 SQL 表达 式 。 事 实 上 ， 
每 一 行 上 需要 更 新 的 值 都 是 不 一 样 的 ,他 的 数据 库 跟 踪 一 个 计算 机 中 心 的 库存 信息 以 及 
每 侣 电脑 的 使 用 情况 。 他 想 要 添加 一 个 1ast_used 列 记 录 每 人 台电 脑 的 最 后 一 次 使 用 日 
期 。 


他 太 专 注 于 使 用 单个 SQL 语句 来 解决 这 个 复杂 的 问题 了 ,这 是 另 一 个 “意大利 面 
条 式 查询 ”的 例子 ! 他 这 几 个 小 时 想 要 写 出 这 个 完美 的 UPDATE 的 时 间 ， 都 可 以 手动 更 
新 掉 所 有 的 记录 了 。 

Spaghetti-Query/soIn/generate-update.sql 


SELECT CONCAT(C 'UPDATE Inventory ' 

" SET last used = ''', MAX(u.usage date), '''', 

”WHERE 1nventory_i1d = ', U.inventory_1id, ';') AS update statement 
FROM ComputerUsage u 
GROUP BY u.inventory_id; 


和 他 想 要 写 出 一 个 SQL 语句 来 解决 这 个 复杂 问题 不 同 ， 我 写 了 一 个 脚本 来 生成 一 
系列 更 简单 且 符 合 需 求 的 SQL 语句: 
这 个 查询 的 输出 是 一 系列 的 UPDATE 语 身 ,由 分 号 分 割 , 可 以 直接 作为 SQL 脚本 执行 : 


Update_statement 

UPDATE Inventory SET last_used = "2002-04-19” WHERE inventory_id = 1234; 
UPDATE Inventory SET last_used = "2002-03-12' WHERE inventory_id = 2345; 
UPDATE Inventory SET last_used = '2002-04-30' WHERE inventory_id = 3456; 
UPDATE Inventory SET last_used = "2002-04-04'" WHERE inventory_id = 4567; 


通过 这 种 方法 ,我 在 几 分 钟 内 就 解决 了 这 个 经 理 花 了 几 小 时 在 那里 纠结 的 问题 。 


执行 多 次 SQL 查询 或 者 多 条 SQL 语句 可 能 并 不 是 解决 问题 最 高 效 的 办 法 ， 但 你 应 该 在 效率 
和 解决 问题 之 间 找 到 平衡 点 。 





尽管 SQL 支持 用 一 行 代码 解决 复杂 的 问题 ， 但 也 别 做 不 切实 际 的 事情 。 
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隐 式 的 列 


连 我 自己 都 不 知道 自己 要 说 什么 ， 怎 么 告诉 你 我 在 想 什么 ? 
E. M. 福 斯 特 








一 个 PHP 开发 人 员 回 我 寻求 帮助 ， 他 的 图 书馆 数据 库 在 执行 一 个 看 上 去 很 简单 的 SQL 查询 
时 的 行为 让 人 疑惑 不 解 。 

Implicit-Columns/intro/join-wildcard.sql 

SELECT x* FROM Books b JOIN Authors a ON (b.author 1d = a.author 1d); 

这 个 奏 询 返回 的 所 有 的 书 名 都 证 NULL。 更 奇怪 的 是 ， 当 他 执行 一 个 不 市 Authors 表 的 查询 
时 ， 返 回 的 结 东 又 是 和 预期 的 一 样 ， 包 含 了 正确 的 书 名 。 


我 帮 他 找到 了 问题 的 根源 : 他 所 使 用 的 PHP 数据库 扩 展 将 从 SQL 查询 返回 的 每 条 记录 都 表 
示 成 一 个 关联 数组 。 比 如 ,使 用 $row[L“isbn”] 直接 获 得 Books.isbn 的 值 。 在 他 所 设计 的 表 中 ， 
Books ( 书 ) 和 Authors (作者 ) 两 张 表 里 都 有 一 个 title (有 “标题 ”和 “称呼 ”两 个 意思 ) 
列 。 由 于 结 采 数 组 中 的 单个 条 目 $row[ “title”"] 仅 能 存储 一 个 值 , 在 这 个 例子 中 , Authors.title 
占据 了 这 个 数组 条 目 。 而 在 数据 库 中 ,大 多 数 作者 的 title 这 一 列 都 没有 值 , 因此 $row[ "title ] 
的 值 就 等 于 NULL。 当 这 个 查询 不 包 伟 Accounts 表 时 ， 列 名 之 则 没有 冲突 ， 书 名 这 一 列 就 如 同 我 
们 预期 的 那样 占据 了 这 个 数组 条 目 。 

我 告诉 这 个 程序 员 , 解决 方案 束 是 给 其 中 的 一 个 title 声明 一 个 别名 , 这 样 不 同 title 就 会 
使 用 数组 中 不 同 的 条 目 。 


Implicit-Columns/intro/join-alias.sql 





SELECT b.title, a.title AS salutation 
FROM Books b JOIN Authors a ON (b.author 1d = a.author 1d); 


随后 他 问 了 我 第 二 个 癌 题 : “我 要 怎么 只 给 一 个 列 定 义 别 名 , 同时 还 要 获取 其 余 的 所 有 列 ?“ 
他 想 要 继续 使 用 通配符 (SELECT *) ， 又 要 给 通配符 所 包含 的 某 一 列 定 义 别 名 。 
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19.1 目标 : 减少 输入 
软件 开发 人 员 似乎 不 太 愿 意 打 字 , 这 在 某 种 程度 上 是 对 他 们 选择 的 这 个 职业 的 讽刺 ,就 像 欧 
享 利 的 小 说 中 那 对 双胞胎 的 结局 。 
程序 员 通 常用 下 面 这 个 需要 写 出 所 有 查询 列 的 例子 来 说 明 要 打 的 字 太 多 了 : 


Implicit-Columns/obj/select-explicit.sql 


SELECT bug_id, date reported, summary, description, resolution, 
reported by，assigned to, verified by, status, priority, hours 
FROM Bugs; 


程序 员 喜 欢 使 用 SQL 通配符 ， 我 一 点 也 不 觉得 惊讶 。 符 所 * 间 味 着 所 有 的 列 ， 因 此 列 的 列表 
是 隐 式 定义 有 的 ， 而 不 古 显 式 的 。 这 让 查询 代码 变 得 更 清晰 。 
Implicit-Columns/obj/select-implicit.sql 


SELECT * FROM Bugs; 


同样 地 ， 当 使 用 INSERT 时 ， 使 用 默认 的 方案 似乎 更 好 : 输入 的 数据 会 按照 列 在 表 中 定义 的 
顺序 应 用 到 所 有 的 列 上 。 


Implicit-Columns/obj/insert-explicit.sqgl 
INSERT INTO Accounts (account name, first name, last name, email, 

password, portrait image, hourly_rate) VALUES 

('bkarwin', 87T11 ， Karwin', ‘billi@Qexample.com', SHA2( 'xyzzy'), NULL, 49.95); 
不 需要 列 出 列 名 让 SQL 语句 变 得 更 短 。 


Implicit-Columns/obj/inser-implicit.sdql 


INSERT INTO Accounts VALUES (CDEFAULT ， 
‘bkarwin', 87T1 ， KarwTn ， ‘biili@Qexample.com', SHA2( 'xyzzy'), NULL, 49.95); 


19.2 反 模 式 : 捷径 会 让 你 迷失 方 问 

尽管 使 用 通配符 和 未 命名 列 能 够 达到 减少 输入 的 目的 ， 但 这 个 习惯 也 会 带 来 一 些 危 害 。 
19.2.1 破坏 代码 重 构 

假设 你 要 问 Bugs 表 里 增加 一 列 ， 比 如 说 用 来 安排 日 程 的 date_due 列 。 


Implicit-Columns/anti/add-column.sql 


ALTER TABLE Bugs ADD COLUMN date due DATE ; 


INSERT 语句 现在 会 报错 ， 因 为 现在 这 张 表 需要 12 个 传 入 参数， 而 你 只 有 11 个 。 
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Implicit-Columns/antVinser-mismatched.sdql 


INSERT INTO Bugs VALUES (DEFAULT, CURDATE(), "New bug', Test 1987 fails...', 
NULL, 123, NULL, NULL, DEFAULT, ‘Medium' , NULL); 


-- SQLSTATE 21S01: Column count doesn't match value count at row 1 

在 使 用 隐 式 模式 执行 INSERT 时 , 输入 必须 严格 按照 定义 表 时 的 那些 列 的 顺序 。 如 条 列 变 了 ， 
这 条 语句 束 会 抛 出 一 个 错误 ， 其 至 有 可 能 把 数据 写 到 错误 的 列 里 面 去 。 

假设 你 要 执行 一 个 SELECT * 的 查询 ， 由 于 不 知道 具体 的 列 名 ， 所 以 你 只 能 按照 最 开始 设计 
表 的 顺序 来 使 用 结果 : 


Implicit-Columns/anti/ordinal.php 





<?php 

$stmt = $pdo->query("SELECT * FROM Bugs WHERE bug_ id = 1234"); 
$row = $stmt->fetch() ; 

$hours = $row[10]; 


但 是 在 你 不 知道 的 情况 下 ， 有 人 删 挥 了 一列 : 


Implicit-Columns/anti/drop-column.sql 


ALTER TABLE Bugs DROP COLUMN verified by; 

hours 这 一 列 已 经 不 是 第 十 列 了 ， 于 是 程序 错误 地 使 用 了 另 一 列 的 数据 。 在 重合 名 、 添 加 、 
删除 列 的 时 候 , 程序 代码 并 不 能 适应 查询 结果 的 改变 。 如 果 使 用 了 通配符 ， 就 无 法 预测 这 个 查询 
会 返回 多 少 行 。 

这 些 错误 可 能 会 隐藏 得 很 深 ， 当 你 在 程序 的 输出 中 发 现 问 题 的 时 候 , 很 难 回 济 并 定位 到 出 问 
题 的 那 行 代码 。 
19.2.2 ”隐藏 的 开销 

在 查询 中 使 用 通配符 可 能 会 影响 性 能 和 扩展 性 。 一 次 查询 所 获取 的 列 越 多 , 客户 端 程 序 和 数 
据 库 之 间 的 网 络 传输 的 字 节 数 也 越 多 。 

生产 环境 中 的 程序 可 能 会 有 很 多 并 发 的 查询 请 求 。 它 们 都 共享 同一 个 网 络 带宽 ， 即使 一 个 千 
兆 网 络 环境 也 可 能 由 于 上 百 个 客户 端 同时 查询 返回 上 千 条 记录 而 造成 阻塞 。 

诸如 Active Record 这 类 的 对 象 关 系 映 射 (ORM) 技术 通常 默 认 使 用 SELECT * 取 得 的 数据 来 
填充 一 个 表示 数据 库 行 的 对 象 。 即 使 ORM 提供 了 一 些 修改 默认 行为 方式 的 接口 ， 大 多 数 程序 员 
也 懒得 去 改 。 
19.2.3 ”你 请 求 ， 你 获得 


我 所 遇 到 的 程序 员 使 用 SQL 通 配 符 时 间 得 最 多 的 问题 是 :“ 有 没有 选择 除了 几 个 我 不 想 要 的 
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列 之 外 所 有 列 的 方法 ? “可 能 这 些 程序 员 想 要 避免 获取 庞大 的 TEXT 类 型 的 列 的 开销 ， 但 他 们 同 
时 也 想 要 获得 通配符 所 市 来 的 书写 上 的 便利 。 


答案 征 “ 没 有 。SQL 不 支持 这 种 “除了 我 不 想 要 的 ， 其 他 都 要 ”的 语法 。 你 只 能 使 用 通 配 
符 获 取 一 张 表 的 所 有 列 ， 或 者 一 个 个 显 式 地 列 出 所 有 你 想 要 的 列 。 


19.3 如何 识 别 反 模式 
如 下 的 情形 可 能 预示 着 你 的 项 目 在 使 用 隐 式 列 的 时 候 处 理 得 不 恰当 , 并 且 造 成 了 一 定 的 麻烦 。 


DOD“ 程序 由 于 还 使 用 老 的 列 名 而 挂 挥 了 。 我们 尝试 了 更 新 所 有 相关 的 代码 , 但 可 能 还 有 地 方 
漏 挥 了 。 

你 改变 了 数据 库 里 的 一 张 表 一 一 添加 、 删 除 、 重 命名 列 , 或 者 改变 列 的 顺序 一 一 但 没 能 
新 全 部 使 用 到 这 张 表 的 代码 。 要 找到 所 有 对 这 张 表 的 ?| 用 十 件 工作 量 很 大 的 事情 。 

D “我 们 伦 了 几 天 时 间 终 于 找到 了 网 络 的 瓶 希 , 最 终 我 们 减 小 了 到 数据 库 服 务 如 的 庞大 的 通 
言 量 。 根 据 我 们 的 统计 信息 ， 平 均 每 个 三 询 请 求 狄 取 2MB 的 数据 ,但 只 有 十 分 之 一 十 用 
来 亚 示 的 。 

你 获取 了 一 堆 用 不 到 的 数据 。 


19.4 ”合理 使 用 反 模式 


在 你 只 是 为 了 快速 地 写 几 个 脚本 对 一 个 解决 方案 进行 测试 ， 或 者 写 临 时 SQL 查询 对 当前 数 
据 进 行 校 验 时 ， 使 用 通配符 是 很 合情合理 的 。 只 执行 一 次 的 查询 对 可 维护 性 没有 任何 要 求 。 

本 书 中 的 例子 用 到 了 通配符 ,一 来 是 为 了 区 省 空间 ， 二 来 是 为 了 避免 分 散 读 者 对 例子 中 那些 
更 重要 部 分 的 注意 力 。 在 实际 的 工作 代码 中 ， 我 很 少 使 用 通配符 。 

如 果 你 的 程序 需要 在 增加 、 删 除 、 重 命名 或 者 重新 配置 列 时 依旧 能 自动 适应 及 调整 ， 那 最 好 
还 是 使 用 通配符 ， 但 要 确认 对 之 前 描述 的 那些 陷阱 有 充分 的 准备 。 

你 可 以 对 一 个 联结 查询 中 的 每 个 独立 的 表 使 用 通配符 。 在 通配符 之 前 加 上 表 名 或 者 别名 作为 
前 级 。 这 么 做 可 以 让 你 在 从 一 张 表 中 获取 所 有 列 的 同时 ， 从 男 一 张 表 中 获取 少量 你 所 指定 的 列 。 
如 下 例 |: 

















Implicit-Columns/legit/wildcard-one-table.sql 


SELECT b.x, a.first name, a.email 
FROM Bugs b JOIN Accounts a 
ON (b.reported by = a.account_1d); 


输入 一 个 很 长 的 列 的 列表 是 很 耗 时 的 。 对 茶 些 人 来 说 ,开发 效率 比 程序 执行 效率 更 重要 。 类 
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似 地 , 你 可 能 会 把 “ 写 更 短 更 可 读 的 查询 语句 ”的 优先 级 提高 。 使 用 通配符 确实 能 减少 输入 的 量 ， 
得 到 一 个 更 简短 的 查询 ， 因 此 ， 如 果 你 确实 注重 这 方面 的 需求 ， 那 就 用 通配符 吧 。 


我 听 过 一 个 开发 人 员 抱怨 说 ， 从 程序 传递 到 SQL 碍 询 请 求 的 包 太 大 而 使 得 网 络 负载 加 剧 ， 
在 茶 些 情况 下 碍 询 语句 的 长 度 的 确 会 造成 影响 。 但 更 稍 见 的 情况 是 , 返回 的 数据 所 使 用 的 珊 宽 比 
碍 询 语句 本 身 要 多 得 多 。 你 需要 目 己 判断 这 些 特殊 的 情况 ， 别 纠结 于 这 些小 问题 。 


19.5 ”解决 方案 : 明确 列 出 列 名 
每 次 查询 时 都 列 出 所 有 你 需要 的 列 ， 而 不 是 使 用 通配符 或 者 隐 式 列 的 列表 。 


Implicit-Columns/soln/select-explicit.sqgl 





SELECT bug_id, date reported, summary, description, resolution, 
reported by, assigned to, verified by, status, priority, hours 
FROM Bugs; 


Implicit-Columns/soln/insert-explicit.sql 


INSERT INTO Accounts (account name, first name, last name, email, 
password_hash, portrait image, hourly_rate) 

VALUES ('bkarwin', 'Bi11', 'Karwin', 'bill@example.com’', 
SHA2( 'xyzzy'), NULL, 49.95); 


所 有 这 些 输 入 看 上 去 都 是 很 繁重 的 工作 ， 但 非常 值得 。 
19.5.1 预防 错误 


还 记得 poka-yoke 吗 ? 你 在 查询 时 指明 所 需要 选择 的 列 ， 这 能 让 SQL 查询 更 好 地 应 付 错误 
以 及 更 早 地 夭 露 问 题 。 


D 如 末 这 张 表 中 茶 一 列 的 位 置 被 移动 过 ， 它 不 会 对 返回 结果 中 这 一 列 的 位 置 造成 影响 。 

D 如 琳 这 张 表 中 新 加 入 一 列 ， 它 古 不 会 出 现在 查询 结 来 中 的 。 

口 如 琳 从 这 张 表 中 删除 一 列 ， 你 的 查询 会 得 到 一 个 错误 一 一 但 是 这 样 手 好 ， 因 为 你 直接 就 

能 定位 到 出 错 的 查询 语句 ， 而 不 古 在 事后 妃 查 问题 的 起 因 。 

如 末 指 定 了 列 名 ， 在 使 用 INSERT 语句 时 也 能 得 到 类 似 的 好 处 。 你 所 定义 的 插入 列 的 顺序 会 
和 窗 盖 原始 表 的 定义 , 并 且 插 入 的 值 会 分 配 到 你 想 要 插入 的 列 里 。 没 有 在 列表 里 出 现 的 新 加 入 的 那 
列 ， 会 日 动 歼 得 一 个 默认 值 或 者 直接 等 于 NULL。 如 琳 你 引用 了 一 个 已 经 被 删除 的 列 ， 就 会 得 到 
一 个 错误 信息 ， 这 能 更 早 地 发 现 并 解决 问题 。 

这 是 一 个 尽早 出 错 原 则 的 例子 。 











日 本 工业 领域 所 使 用 的 一 种 防 差错 技术 ， 参 考 第 5 章 。 


到 灵 社 区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


19.5 ”解决 方案 : 明确 列 出 列 名 蚂 175 
19.5.2 ”你 不 需要 它 


如 琳 必 须 关 心软 件 的 可 扩展 性 和 程序 的 否 吐 量 , 你 应 该 检查 一 下 在 网 络 传输 过 程 中 可 能 造成 
的 浪费 。 在 开发 和 测试 环境 中 ,SQL 查询 所 造成 的 流量 上 的 问题 可 以 忽略 不 计 , 但 在 生产 环境 中 
每 秒 上 千 次 的 SQL 三 询 就 会 造成 严重 的 问题 。 

一 旦 你 禁止 了 SQL 通配符 ， 就 很 目 然 地 有 针对 性 地 去 除 那些 你 不 需要 的 列 ， 同 时 也 意味 着 
更 少 的 输入 。 这 也 能 使 得 网 络 市 宽 的 使 用 更 加 有 效率 。 

Implicit-Columns/soln/yagni.sql 


SELECT date_reported, summary, description, resolution, status, priority 
FROM Bugs; 


19.5.3 无 论 如 何 你 都 需要 放弃 使 用 通配符 


你 从 自动 售 货 机 关 了 一 包 M&M's， 包 装 袋 很 有 用 ， 它 能 让 你 很 食 单 地 就 把 这 些 糖 带 回 办 公 
果 。 一 旦 你 打开 了 包装 伐 ， 就 需要 将 M&M's 的 每 一 粒 糖 都 视 为 独立 的 个 体 。 它 们 会 深 得 到 处 都 
是 。 如 末 你 不 小 心 , 一 些 糖 还 会 掉 在 果子 下 和 面 5| 来 只 虫 。 但 是 , 你 想 吃 到 它们 就 只 有 打开 包 沪 袋 。 

在 SQL 查询 中 ， 一旦 你 想 要 对 某 一 列 进行 一 些 表 达 式 计算 ， 或 者 使 用 一 个 列 别名 ,或 者 由 
于 性 能 原因 排除 某 一 列 ， 你 就 打开 了 通配符 这 个 “ 包 淡 袋 "。 你 不 再 人 享有 将 所 有 列 的 集合 当成 一 
个 包 处 理 所 市 来 的 便利 ， 但 能 够 访问 到 这 个 包 里 面 的 所 有 内 容 。 

你 不 可 避免 地 要 在 查询 中 引入 列 别 名 、 国 数 ， 或 者 从 列表 中 排除 未 列 。 如 采 你 从 一 开始 就 不 
使 用 通配符 ， 那 之 后 要 对 查询 进行 修改 就 会 变 得 更 加 方便 。 














随便 拿 ， 但 是 拿 了 就 必须 吃 掉 。 
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明文 密码 


敌人 也 了 解 这 套 系统 。 
香农 的 格言 


你 接 到 一 个 电话 ， 某 个 人 在 登录 你 提供 技术 支持 的 程序 时 过 到 了 麻烦 。 
我 是 销售 部 的 Pat Johnson。 我 忘记 了 我 的 密码 。 你 能 帮 我 查 一 下 密码 是 什么 吗 ? ”Pat 的 声 
音 昕 起 来 有 扩 尾 ， 还 有 扩 急 和 不 好 意思 。 


“对 不 起 ， 我 不 能 这 么 做 。” 你 回答 道 : “我 可 以 帮 你 重 置 密码 ， 然 后 给 你 的 注册 邮箱 发 一 封 
邮件 ， 你 可 以 根据 E-mail 里 的 指示 重新 设置 密码 。 


电话 那 头 的 男人 变 得 更 加 不 耐烦 目 不 可 理喻 了 。“ 真 荒唐 1” 他 说 ,“ 我 上 一 家 公司 的 技术 支 
持 就 可 以 直接 帮 我 看 一 下 密码 是 什么 。 你 难道 连 你 自己 的 工作 都 做 不 好 ? 你 要 我 打 电话 给 你 的 经 
理 吗 ?“ 


你 自然 想 要 和 你 的 用 户 保持 良好 的 关系 ， 因 此 你 执行 了 一 个 SQL 查询 看 了 下 Pat Johnson 的 
账号 密码 ， 在 电话 上 告诉 了 他 。 


这 个 人 挂 了 电话 后 ， 你 同 同 事 说 道 :“ 真 悬 啊 。 我 差点 就 收 到 Pat Johnson 的 投诉 了。 我 希望 
他 不 会 再 抱 忽 了 。 


你 的 同事 很 困惑 。“ 他 ?销售 部 的 Pat Johnson 是 个 女 的 啊 。 我 觉得 你 可 能 把 她 的 密码 给 了 一 
A 


20.1 目标 : 恢复 或 重 置 密码 
我 敢 打赌 , 每 个 有 密码 的 程序 都 会 碰 到 用 户 忘 记 窗 码 的 情况 。 现 今 大 多 数 程 序 都 通过 E-mail 








@ Shannon， 美 国 数学 家 ,信息论 的 创始 人 。 一 一 编者 注 
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的 回馈 机 制 让 用 户 恢 复 或 者 重 置 密码 。 这 个 解决 方案 有 一 个 前 提 , 就 是 这 个 用 户 能 访问 他 在 注册 
服务 时 留 下 的 邮箱 。 


20.2 反 模 式 : 使 用 明文 存储 密码 


在 这 种 恢复 密码 的 解决 方案 中 , 很 弟 见 的 一 个 错误 是 允许 用 户 申 请 系统 发 送 一 封 带 有 明文 密 
码 的 邮件 。 这 是 数据 库 设 计 上 一 个 可 怕 的 漏洞 , 并 且 它 会 导致 一 系列 安全 同 题 ,可 能 会 使 得 未 取 
得 授权 的 人 获得 系统 访问 权限 。 


接 下 来 的 几 段 我 们 就 来 分 析 这 些 风 险 。 假 设 我 们 的 错误 跟踪 系统 有 一 张 Accounts 表 ， 每 个 
用 户 的 账 志 信息 都 是 这 张 表 里 的 一 条 记录 。 


20.2.1 存储 密码 
在 Accounts 表 中 ， 我 们 以 最 典型 的 字符 串 形式 存储 密码 : 


Passwords/anti/create-table.sql 


CREATE TABLE Accounts ( 
account_id SERIAL PRIMARY KEY ， 
account name VARCHAR(20) NOT NULL ， 
emal |] VARCHAR(100) NOT NULL ， 
password VARCHAR(30) NOT NULL 
人 
你 可 以 很 简单 地 通过 插入 一 条 人 带 有 指定 密码 的 记录 来 创建 一 个 新 账号 : 
Passwords/anti/insert-plaintext.sql 


INSERT INTO Accounts (account_1id, account name, email, password) 
VALUES (123, 'billkarwin', ‘billi@example.com', 'XxyzZzy '); 


使 用 明文 存储 密码 或 者 使 用 明文 在 网 络 上 传递 密码 都 征 不 安全 的 。 如 本 攻 击 者 能 够 蕉 狂 你 用 
来 插入 密码 的 SQL 语句 ， 他 们 就 能 直接 读 到 密码 。 在 更 新 密码 或 者 验证 用 户 是 否 输入 正确 的 密 
码 时 这 么 做 ， 也 会 导致 同样 的 问题 。 黑 客 有 好 儿 种 方法 能 够 盗 取 用 户 密 码 ， 比 如 下 面 儿 种 。 


口 在 客户 端 和 服务 强 端 数据 库 交 互 的 网 络 线路 上 截获 数据 包 。 这 么 做 比 你 想象 的 要 容易 得 
多 。 有 很 多 这 样 的 软件 能 做 到 这 一 点 ， 比 如 Wireshark 。 

口 在 数据 库 服 务 如 上 搜索 SQL 的 查询 日 志 。 要 这 么 做 的 前 提 是 ， 黑 客 能 够 访问 到 数据 库 所 
在 的 服务 如 ,假设 他 们 真 的 能 登录 到 服务 带 上 ， 他 们 就 可 以 查看 那些 带 有 SQL 语句 的 数 
据 库 执行 日 志 。 

D 从 服务 如 或 者 备份 介质 上 读 取 数据 库 备份 文件 内 的 数据 。 你 的 备份 文件 妥 善 保 管 了 吗 ? 
你 在 回收 或 者 丢弃 备份 设备 之 前 彻 的 清理 干 汲 里 面 的 数据 了 吗 ? 





Q@ Wireshark (也 叫 Ethereal) ， 其 官网 为 http:/www.wireshark.org/。 
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20.2.2 ”验证 密码 


一 段 时 间 后 , 当 用 户 想 要 登录 , 你 的 程序 需要 比较 用 户 输入 的 密码 和 数据 库 中 存储 的 密码 是 
否 一 致 。 由 于 密码 本 身 是 以 明文 存储 的 , 所 以 这 样 的 比较 也 是 以 明文 字符 串 的 形式 进行 的 。 比 如 ， 
你 可 以 使 用 如 下 的 查询 来 返回 0 或 1， 判断 用 户 输入 的 密码 和 数据 库 中 的 是 否 一 致 : 


Passwords/anti/auth-plaintext.sql 


SELECT CASE WHEN password = “opensesame ”THEN 1 ELSE 0 END 
AS password matches 

FROM Accounts 

WHERE account_ 1d = 123; 


在 上 和 面 的 例子 中 ， 用 户 输 入 的 密码 opensesame 是 错 的 ， 因 此 整个 查询 返回 了 0。 

就 像 上 一 段 存储 密码 中 所 说 的 那样 ， 将 用 户 输 入 的 字符 串 以 明文 的 形式 插入 到 SQL 语句 中 
会 让 攻击 者 更 容 多 得 手 。 

别 把 两 个 不 同 的 候选 项 绑 在 一 起 


大 多 数 时 候 ， 我 所 看 到 的 认证 查询 是 将 account_id 和 password 两 列 同时 放 在 
WHERE 子 负 里 进行 匹配 查找 : 


Passwords/anti/auth-Iumping.sql 


SELECT * FROM Accounts 
WHERE account name = 'bill1' AND password = ‘opensesame'; 


在 账号 不 存在 或 者 用 户 输 入 的 密码 不 正确 时 ,整个 查询 返回 空 。 你 的 程序 无 法 区 分 
到 底 认证 为 什么 失败 了 。 最 好 是 使 用 一 个 能 区 分 这 两 种 情况 的 查询 方法 。 那样 就 可 以 根 
据 错 误 合适 地 选择 处 理 方 式 了 。 

比如 ， 当 发 现在 短 时 间 内 同一 个 账号 有 很 多 失败 的 登录 请 求 时 ,你 可 能 会 想 暂 时 冻 
结 这 个 账号 ,因为 这 可 能 是 一 次 恶意 攻击 。 然 而 ,所 面临 的 问题 是 你 使 用 的 查询 语句 没 
办 法 区 分 到 底 是 用 户 名 输 错 了 ， 还 是 密码 输 错 了 。 


20.2.3 ”在 E-mail 中 发 送 密 码 
由 于 密码 在 数据 库 中 是 以 明文 形式 存储 的 ， 你 可 以 很 简单 地 在 程序 中 获取 密码 : 


Passwords/anti/select-plaintext.sql 


SELECT account name, email, password 
FROM Accounts 
WHERE account_1d = 123; 
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随后 你 的 程序 就 可 以 根据 用 户 的 请 求 将 密码 发 送 到 用 户 的 邮箱 里 。 你 可 能 在 访问 过 网 站 的 密 
码 提醒 功能 里 看 到 过 这 样 的 邮件 。 比 如 下 面 这 种 类 型 : 


密码 恢复 邮件 实例 : 


From: daemon 
To: bill@Qexample.com 
Subject: password request 


你 名 为 “bill” 的 账户 请 求 密码 提醒 。 

你 的 密码 是 "XyZZy"。 

点 击 如 下 链接 登录 你 的 账户 : 

http://ww.example.com/login 

将 明文 密码 通过 邮件 发 送 是 非常 严重 的 安全 隐患 。E-mail 可 能 会 被 灵 客 劫持 、 记 杂 或 者 使 用 

多 种 方式 存储 。 就 算 使 用 安全 协议 查看 邮件 ,收发 邮件 的 服务 由 值得 信赖 的 系统 管理 员 维护 ,也 
不 能 保证 一 定安 全 。 由 于 E-mail 的 收发 都 需要 经 由 网 络 层 传 输 ， 数 据 可 能 会 在 其 他 的 路 由 市 点 
上 被 截获 。E-mail 安全 协议 的 履 兰 面 并 不 足够 广 ， 也 不 是 你 能 控制 的 。 


20.3 如 何 识 别 反 模式 


任何 能 够 恢复 你 的 密码 ， 或 者 将 你 的 密码 通过 邮件 以 明文 或 可 逆转 加 窗 的 格式 发 给 你 的 程 
序 ， 都 必然 犯 了 本 章 的 反 模 式 。 如 朱 你 的 程序 可 以 通过 一 个 合法 的 方式 获得 用 户 的 明文 密码 , 那 
么 慌 客 也 可 以 做 到 同样 的 事情 ， 只 不 过 是 不 合法 而 已 。 





20.4 合理 使 用 反 模 式 


程序 开发 的 道德 标准 


如 果 你 在 开发 一 个 需要 密码 的 程序 , 被 要 求 设计 一 个 恢复 密码 的 特性 ,你 应 该 拒绝 这 样 
的 需求 ， 提 醒 项 目 决 策 者 这 么 做 的 风险 ， 然 后 提供 另 一 个 能 起 到 同样 作用 的 解决 方案 。 

正如 一 个 电工 应 该 能 辨别 并 改正 一 个 会 导致 火灾 的 接线 设计 一 样 ， 作 为 一 个 软件 工程 
师 ， 有 责任 和 义务 去 了 解 相关 的 安全 问题 ， 并 提升 软件 的 安全 性 。 

你 可 以 阅读 关于 软件 安全 方面 的 19 Deadly Sins of Software Secuyzb[HLV0S] 一 书 。 另 一 
个 相关 资源 是 Open Web Application Security 项 目 (http://owasp.org)。 


你 的 程序 可 能 需要 使 用 密码 来 访问 一 个 第 三 方 的 服务 一 一 这 意味 着 , 你 的 程序 可 能 是 一 个 客 


户 端 ， 必 须 用 可 读 的 格式 来 存储 这 个 密码 。 较 好 的 做 法 是 ,使 用 一 些 程序 能 够 解码 的 加 密 方法 来 
存储 ， 而 不 古 直接 使 用 明文 的 方式 存储 在 数据 库 中 。 
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你 可 以 将 身份 认证 和 验证 区 分 开 来 。 用户 可 以 随意 说 他 自己 古 谁 , 但 验证 的 逻辑 就 是 用 来 证 
明 他 确实 年 他 目 己 。 窗 码 就 是 最 稼 被 用 来 做 鸡 证 这 件 事 情 的 。 

如 霖 不 能 确保 系统 足够 安全 能 抵御 有 技巧 和 有 和 针对 性 的 攻击 , 那么 实际 上 系统 只 有 认证 机 制 
而 没有 可 靠 的 验证 机 制 。 但 这 并 不 一 定 古 必须 的 。 


并 不 是 所 有 的 程序 都 有 被 攻击 的 风险 , 也 不 是 所 有 的 程序 都 有 敏感 的 需要 保护 的 信息 。 比 如 
说 , 一 个 可 能 只 有 儿 个 可 靠 的 内 部 人 员 访 问 的 内 部 程序 ， 认证 机 制 就 可 能 足够 了 。 在 那些 非 正式 
的 环境 中 ， 一 个 简单 的 登录 框 就 已 经 足够 了 。 额 外 的 建立 一 个 强 验证 系统 可 能 并 不 合理 。 

尽管 如 此 , 还 是 要 小 心 一 一 程序 的 使 用 总 是 有 超出 它们 原来 设 定 环境 和 作用 的 趋势 。 在 你 的 
小 型 内 部 程序 皮 露 在 公司 防火 墙 之 外 之 前 ， 你 应 该 要 找 个 安全 专家 来 评估 一 下 它 的 安全 性 。 


20.5 解决 方案 : 先 哈 希 ， 后 存储 


本 莉 的 反 模式 所 插 述 的 主要 问题 是 密码 的 原始 存储 格式 是 可 读 的 。 其 实 可 以 不 将 密码 读 出 来 
就 验证 用 户 输 入 的 密码 是 否 正确 。 这 一 方 就 介绍 了 直 样 在 SQL 数据 库 中 实现 这 样 的 安全 存储 密 
码 的 方案 。 


20.5.1 理解 哈 希 函数 


使 用 单 向 哈 希 国 数 对 原始 密码 进行 加 密 , 哈 希 是 指 将 输入 字符 串 转 化 成 男 一 个 新 的 、 不 可 识 
别 的 字符 串 的 国 数 。 使 用 哈 希 国 数 后 ， 连 原始 输入 串 的 长 度 也 变 得 难以 猜 负 了 ， 因 为 哈 希 函数 返 
回 的 字符 串 的 长 度 是 固定 的 。 比 如 ，SHA-256 算法 将 我 们 的 密码 xyzzy， 转 换 成 了 一 个 256 位 的 
早 ， 阁 使 用 16 进 制 表示 是 一 个 64 字 刷 的 字符 串 。 

SHA2('xyzzy') = "184858a00fd7971f810848266ebcecee5e8b69972c5ffaed622f5ee078671aed 

哈 希 的 另 一 个 特征 就 是 不 可 逆 。 由 于 哈 希 国 数 的 算法 设计 就 是 要 “丢失 ”一 些 输入 串 的 信息 ， 
所 以 你 无 法 从 一 个 哈 希 串 恢 复出 原始 输入 串 。 一 个 好 的 哈 希 算法 应 该 需要 花 上 和 直接 猜测 密码 差 
不 多 的 工作 量 才能 找到 原始 串 。 

曾经 比较 流行 的 哈 希 算法 是 SHA-1, 但 研究 者 最 近 证 明 , 这 个 只 有 160 位 的 哈 希 算法 还 不 够 
安全 ， 有 一 种 技术 能 通过 哈 希 串 推 算出 输入 串 。 这 项 技术 非常 耗 时 ， 但 无 论 如 何 ， 都 比 靠 猜 破解 
密码 所 花 的 时 间 短 。 美 国 国家 标准 和 技术 协会 (NIST) 宣布 ，2010 年 后 开始 逐步 取消 SHA-1 
作为 安全 哈 希 算法 的 资格 ,取而代之 的 是 其 更 强大 的 变异 算法 :SHA-224、SHA-256、SHA-384 
和 SHA-512。 无 论 征 否 遵循 NIST 的 标准 ， 至 少 使 用 SHA-256 算法 加 密 密 码 总 古 好 的 。 














G@ http:/csrc.nist.gov/groups/ST/toolkit/secure hashing.html。 
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MD5 是 另 一 个 流行 的 哈 希 国 数 ， 产 生 128 位 的 哈 希 串 。MD5 也 被 证 明 是 弱 加 密 ， 因 此 你 最 
好 不 要 用 它 来 加 密 密 码 。 稍 弱 的 算法 还 是 有 很 多 使 用 场景 的 , 但 对 于 诸如 密码 一 类 的 敏感 信息 ， 
它们 并 不 适用 。 

20.5.2 ”在 SQL 中 使 用 哈 希 


下 面 是 对 Accounts 表 的 重 定义 。SHA-256 的 哈 希 密码 总 是 一 个 64 字 市 的 字符 串 , 因此 这 一 
列 的 类 型 是 固定 长 度 的 CHAR。 
Passwords/soln/create-table.sql 


CREATE TABLE Accounts ( 


account_1id SERIAL PRIMARY KEY, 
account _ name VARCHAR(20), 

email |] VARCHAR(100) NOT NULL ， 
password_hash CHAR(64) NOT NULL 


7 


哈 希 函数 并 不 是 标 准 的 SQL 语言 ， 因 此 你 可 能 要 依赖 于 所 使 用 数据 库 提供 的 哈 希 扩展 。 比 


如 ，MySQL 6.0.5 的 SSL 扩展 支 持 包含 了 SHA2 〇 的 函数 ， 它 默认 返回 一 个 256 位 的 哈 希 上 串 。 


3 


Passwords/soln/insert-hash.sql 


INSERT INTO Accounts (account_1d, account name, email, password_hash) 
VALUES (123, 'billikarwin', 'billi@Qexample.com', SHA2( 'xyzzy ')); 


你 可 以 在 存储 和 验证 用 户 输入 时 使 用 同样 的 哈 希 算法 ， 并 对 两 个 哈 希 后 的 值 进行 比较 。 
Passwords/soln/auth-hash.sql 


SELECT CASE WHEN password_hash = SHA2('xyzzy') THEN 1 ELSE 0 END 
AS password matches 
FROM Accounts 
WHERE account_ 1d = 123; 
你 可 以 通过 简单 地 将 用 户 的 密码 改 成 一 个 永远 不 可 能 通过 哈 希 函数 得 到 的 字符 串 将 其 锁 住 。 
比如 ，noaccess 这 个 字符 串 包含 了 非 十 六 进 制 字 符 ， 是 不 可 能 由 哈 希 函数 返回 的 。 


20.5.3 给 哈 希 加 料 





如 果 你 使 用 哈 希 串 奉 代 了 原始 密码 ,然后 攻击 者 获得 了 对 数据 库 的 访问 权限 《比如 他 翻 了 你 
的 垃圾 桶 , 找到 了 被 丢弃 的 备份 CD), 他 仍旧 可 以 通过 试 错 法 获取 用 户 密码 。 要 猿 出 每 个 密码 可 
能 会 花 很 长 时 间 , 但 他 可 以 预先 准备 好 自己 的 数据 库 一 一 存储 可 能 的 密码 和 对 应 的 哈 希 串 , 然后 
和 从 你 的 数据 库 中 找到 的 哈 希 串 进 行 比较 。 只 要 有 一 个 用 户 选 择 了 字典 中 存在 的 单词 ,攻击 者 就 
能 够 很 轻易 地 通过 搜索 两 边 的 哈 希 值 来 找到 对 应 的 密码 原文 。 他 其 至 可 以 直接 使 用 SQL 来 做 这 
件 事 : 
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Passwords/soln/dictionary-attack.sql 


CREATE TABLE DictionaryHashes ( 
password VARCHAR(100 ) ， 
password_hash CHAR(64) 

小 


SELECT a.account name, h.password 
FROM Accounts AS a JOIN DictionaryHashes AS h 
ON a.password_ hash = h.password_hash ; 


防御 这 种 “字典 攻击 ”的 一 种 方法 是 给 你 的 密码 加 密 表达 式 加 点 佐 料 。 具 体 方法 是 在 将 用 户 
密码 传人 哈 希 国 数 进行 加 密 之 前 , 将 其 和 一 个 无 意义 的 串 拼 接 在 一 起 , 即使 用 户 选 择 了 一 个 在 字 

典 中 存在 的 单词 作为 密码 , 对 加 料 密码 进行 哈 希 得 到 的 串 是 不 太 会 出 现在 攻击 者 的 哈 希 数据 库 中 
的 ， 你 可 以 发 现 增加 了 随机 串 得 到 的 哈 希 值 和 原始 值 是 不 一 样 的 : 


SHA2( 'password') 
= '5e884898da28047151d0e56f8dc6292773603d0d6aabbdd62allef721d1542d8" 








SHA2( 'password-OxT!sp9") 
= "7256d8d7741f740ee83ba7a9b30e7acllifcd9dbd7a0147f4cc83c62dd6e0c45b" 


每 个 密码 都 应 该 配 上 不 同 的 随机 串 ， 这 样 攻击 者 就 必须 为 每 个 密码 都 创建 一 个 新 的 哈 希 字 
典 。 然 后 他 就 会 回 到 起 点 上 ， 因 为 破解 数据 库 中 的 密码 所 花 的 时 间 和 靠 猜 达 到 目的 的 时 间 差 不 


中 


oO 


Ny 


Passwords/soln/salt.sql 


CREATE TABLE Accounts ( 


account_1id SERIAL PRIMARY KEY ， 
account_name VARCHAR (20), 

email |] VARCHAR(100) NOT NULL, 
password_ hash CHAR(32) NOT NULL ， 
salt BINARY(8) NOT NULL 


小 


INSERT INTO Accounts (account id, account name, email, 
password_hash, salt) 
VALUES (123, 'bilikarwin', ‘bill@Qexample.com’', 
SHA2( Xyzzy ”|| '-OxT!sp9'), '-OxT!sp9'); 
SELECT (password hash = SHA2('xyzzy" || salt)) AS password matches 
FROM Accounts 
WHERE account_ 1d = 123; 


位 料 的 合理 长 度 应 该 是 8 个 字 广 。 你 需要 为 每 个 密码 随机 生成 任 料 。 之 前 的 儿 个 例子 里 , 任 
料 字 符 串 使 用 的 都 是 可 打印 字符 ， 但 事实 上 你 可 以 使 用 随机 的 、 不 可 打印 的 任意 字符 。 


@ 从 哈 希 值 恢 复 密 码 的 一 种 更 优雅 的 技术 叫做 彩虹 表 ， 它 的 性 能 令 人 吃惊 ， 但 引入 随机 串 也 能 防御 这 种 技术 。 
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20.5.4 在 SQL 中 隐藏 密码 

现在 , 你 在 存储 密码 之 前 已 经 有 了 一 个 强 哈 希 函数 来 对 密码 进行 加 密 ， 并 且 使 用 了 随机 字符 
串 来 阻止 字典 攻击 ， 你 可 能 认为 这 样 已 经 足够 安全 了 。 但 是 ， 密 码 还 是 会 在 SQL 表达 式 中 以 明 
文 的 形式 出 现 , 这 意味 着 如 果 攻 击 者 截获 了 网 络 通 信 的 数据 包 , 或 者 记录 了 相关 的 查询 语句 的 日 
志 给 到 了 错误 的 人 手 里 ， 密 码 就 泄露 了 。 

只 要 不 将 明文 密码 放 到 SQL 查询 语句 中 ， 就 能 避免 这 种 类 型 的 泄露 。 你 所 需要 做 的 是 在 程 
序 代 码 中 生成 密码 的 哈 希 串 ， 然 后 在 SQL 查询 中 使 用 哈 希 串 。 这 么 做 的 好 处 是 ， 即 使 攻击 者 截 
获 了 数据 包 ， 他 也 没 办 法 将 哈 希 反 转 成 他 所 需要 的 密码 。 

即使 这 么 做 ， 你 还 是 需要 在 哈 希 之 前 给 原始 密码 追加 随机 字符 串 。 

下 面 是 一 个 PHP 的 例子 ,使 用 了 PDO 扩展 来 获得 佐 料 、 计 算得 到 哈 希 串 ， 然 后 执行 查询 请 
求 来 和 数据 库 中 存储 的 加 料 哈 希 值 进行 比较 : 





Passwords/soln/auth-salt.php 


<?php 
$password = 'xyzzZy'; 


$stmt = $pdo->query( 
"SELECT salt 
FROM Accounts 
WHERE account name = 'bi11"'"); 


$row = $stmt->fetchO; 
$salt = $row[O0]; 


$hash = hash('sha256', $password . $salt); 


$stmt = $pdo->query(" 
SELECT (password hash = '$hash') AS password matches; 
FROM Accounts AS a 
WHERE a.acct name = bil11'"); 


$row = $stmt->fetch(); 
if ($row === false) 并 
// account 'bilil' does not exist 
} else !{ 
$password _ matches = $row[0]; 
if (!$password matches) { 
// password given was incorrect 
上 
上 
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这 个 hash 〇 函数 能 确保 返回 的 一 定 是 十 六 进 制 数 ， 因 此 不 会 有 SQL 注入 的 风险 (详情 参阅 
第 21 革 )。 

在 网 络 程序 中 , 还 有 男 一 个 地 方 是 攻击 者 有 机 会 截获 网 络 数 据 包 的 : 在 用 户 的 麟 览 副 和 网 站 
服务 右 之 同 。 当 用 户 提交 了 一 个 登录 表单 时 ， 训 览 全 将 用 户 的 密码 以 明文 形式 发 送 到 服务 给 端 ， 
随后 服务 强 端 才能 使 用 这 个 密码 进行 之 前 所 介绍 的 哈 希 运算 。 你 可 以 通过 在 用 户 的 放 览 如 发 送 表 
单数 据 之 前 就 进行 哈 希 运算 来 解决 这 个 问题 。 但 这 个 方案 也 有 一 些 不 足 的 地 方 , 就 古 你 需要 在 进 
行 正确 的 哈 希 运算 之 前 , 还 要 通过 别 的 途径 获得 和 这 个 密码 相关 联 的 任 料 。 折 中 方案 就 是 在 从 议 
览 如 向 服务 颖 端 提 交 密 码 表单 时 ， 使 用 安全 的 HTTP (https) 链接 。 


20.5.5 ” 重 置 密码 ， 而 非 恢 复 密 码 


现在 ,密码 已 经 以 一 个 更 安全 的 方法 存储 了 , 但 你 还 是 需要 解决 最 原始 的 问题 : 帮助 那些 忘 
记 密 码 的 用 户 。 由 于 现在 数据 库 中 存 着 的 密码 是 哈 希 串 而 不 是 原始 密码 ,你 已 经 无 法 恢复 他 们 的 
密码 了 。 你 没 办 法 比 一 个 攻击 者 更 快速 地 反 转 一 个 哈 希 值 , 但 可 以 允许 用 户 用 别 的 途径 获得 访问 
权限 。 这 里 介绍 两 个 简单 方案 。 


第 一 个 方案 是 当 用 户 忘 记 他 们 的 密码 请 求 帮助 的 时 候 , 程序 发 送 一 封 带 有 临时 生成 密码 的 邮 
件 给 用 户 ， 而 不 是 直接 发 给 他 目 己 的 密码 。 为 了 安全 起 见 ， 在 一 个 较 短 的 时 间 之 内 ， 这 个 临时 密 
码 就 会 过 期 ， 即 使 这 封 E-mail 被 截获 了， 程序 还 是 不 会 允许 未 验证 的 访问 。 同 时 ， 程 序 应 该 设 
计 成 一 旦 用 户 使 用 临时 密码 登录 后 ， 就 应 该 被 强制 要 求 修改 密码 。 


系统 生成 临时 密码 邮件 


From: daemon 
To: bill@Qexample.com 
Subject: password reset 


你 要 求 重 置 你 账户 的 密码 。 
你 的 临时 密码 是 "pO0trz3ble"， 
一 小 时 之 后 ， 这 个 密码 将 不 能 使 用 。 
点 击 如 下 链接 登录 你 的 账号 并 设置 你 的 密码 : 
http://ww.example.com/login 
第 二 个 方案 , 在 数据 库 中 记录 下 这 个 请 求 ， 并 且 为 其 分 配 一 个 唯一 的 令 牌 作为 标识 ， 而 不 是 
发 送 市 有 新 密码 的 邮件 : 


Passwords/soln/reset-request.sql 




















CREATE TABLE PasswordResetRequest ( 
token CHAR(32) PRIMARY KEY, 
account_1id BIGINT UNSIGCNED NOT NULL ， 
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expiration TIMESTAMP NOT NULL, 
FOREIGN KEY (account 1d) REFERENCES Accounts(account_ 1d) 


); 
SET @token = MD5C'billkarwin' || CURRENT_ TIMESTAMP); 


INSERT INTO PasswordResetRequest (token, account_ id, expirat1ion) 
VALUES (@token, 123, CURRENT TIMESTAMP + INTERVAL 1 HOUR); 


随后 你 可 以 在 E-mail 中 包含 这 个 令 牌 。 你 也 可 以 使 用 别 的 途径 发 送 这 个 令 牌 ， 比 如 短信 ， 
只 要 能 将 消 朋 送 达 到 这 个 请 求 重 萤 窗 码 的 账号 所 有 者 即 可 。 使 用 这 种 方法 ,如 琳 一 个 陌生 人 非法 
地 请 求 了 一 次 密码 重 莹 ， 系 统 只 会 发 鞍 E-mail 给 这 个 账 志 的 实际 拥有 者 。 


密码 重 置 页 面临 时 链接 邮件 


From: daemon 
To: bill@Qexample.com 
Subject: password reset 


你 要 求 重 置 你 账户 的 密码 。 
在 一 小 时 内 点 击 下 面 链接 来 改变 密码 。 
一 小 时 之 后 ， 这 个 链接 将 无 法 工作 ， 你 的 密码 保持 不 变 。 
http://ww.example.com/reset_password?token=f5cabff22532bd0025118905bdea50da 
当 程序 收 到 一 个 从 重 置 密码 页 面 来 的 请 求 , 令 牌 的 值 必 须 存 在 于 密码 重 置 请 求 表 中 , 并且 该 
行 的 过 期 时 间 点 必须 是 一 个 将 来 的 时 间 点 而 不 是 过 去 的 时 间 点 。 同 时 ， 该 行 的 account_id 引用 
Accounts 表 ， 因 此 ， 这 个 令 牌 被 约束 为 只 能 重 置 一 个 指定 的 账号 。 
当然 ， 如 果 其 他 人 访问 了 这 个 页 面 ， 也 会 造成 问题 。 可 以 通过 一 些 简 单 的 方法 来 减 小 风险 ， 
比如 这 个 特殊 页 面 的 有 效 期 非常 短 ， 并 且 这 个 页 面 上 不 会 显示 哪个 账号 的 密码 要 被 重 置 等 。 
密码 学 在 不 断 进 步 , 努力 保持 领先 于 攻击 技术 。 本 章 所 介绍 的 这 些 技术 能 够 帮助 改进 很 多 一 
般 的 程序 , 但 如 果 你 所 开发 的 系统 对 安全 性 要 求 非常 高 ， 你 应 该 深入 研究 一 些 更 高 级 的 技术 ,， 比 
如 下 面 提 到 的 。 
口 PBKDF2 (http://tools.ietf.org/html/rfc2898) 是 一 个 被 广泛 使 用 的 密码 加 强 标 准 。 
口 Berypt (http://berypt.sourceforge.net/) 实现 了 一 个 自 和 过 应 哈 布 图 数 。 


如 果 密 码 对 你 可 读 ， 那 对 攻击 者 也 如 此 。 
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就 像 我 说 的 ， 我 被 错误 地 引述 了 ，。 


格 劳 草 ， 马 克 思 


2010 年 3 月 ， 美 国 历史 上 最 大 规模 的 号 份 盗窃 案 告破 ， 寻 客 Albert Gonzalez 伏 法 。 他 通过 
侵入 AIM 机 、 几 家 大 型 零售 商 的 系统 以 及 相关 联 的 信用 卡 公 司 的 系统 ， 总 计 盗 夯 了 1.3 亿 个 信 
用 卡 与 借 记 卡 信息 。 


Gonzalez 打破 了 他 目 己 保持 的 盗 饭 记录 ， 原 来 的 记录 是 他 使 用 了 无 线 网 络 的 漏洞 ， 在 2006 
年 盗 欠 了 4560 万 个 信用 卡 与 价 记 卡 信息 。 


Gonzalez 征 怎 么 能 做 到 的 ? 我 们 可 以 想 角 一 下 邦 德 电影 里 的 场景 ， 从 电梯 井 放 下 绳索 ,使 用 
超级 计算 机 ， 和 破解 最 先进 的 加 密 算 法 ， 或 者 破坏 整 座 城市 的 电力 系统 之 类 的 。 


起 诉 书 中 对 案情 的 描写 要 真实 平角 得 多 。Gonzalez 利 用 了 互联 网 上 最 贡 见 的 安全 漏 铜 。 他 使 
用 了 SQL 注入 的 攻击 手段 ， 歼 得 了 往 受 害 服务 各 上 传 文件 的 权限 ， 随 后 他 和 同伙 获得 了 对 系统 
的 访问 权限 。 起 诉 书 中 有 如 下 这 样 的 描述 。 

攻击 执行 手段 : 恶意 软件 

他 们 会 在 受害 者 的 电脑 上 安装 一 个 叫做 sniffer 的 程序 , 这 个 程序 会 在 受害 人 使 用 

网 络 进行 交易 时 ， 收 集 他 的 信用 卡 账 号 和 相关 信息 ， 然 后 定期 地 将 这 些 数据 发 送 给 这 

伙 人 。 

被 Gonzalez 攻击 的 那儿 家 零售 商 声 称 ， 他 们 已 经 修复 了 这 些 安全 漏 词 。 然 而 ， 他 们 堵 住 了 
一 个 漏 词 , 每 天 都 有 新 的 市 有 其 他 调 洞 的 网 络 程序 被 发 布 。SQL 广 入 对 于 并 客 来 说 仍然 是 一 个 很 
容 多 的 突破 口 ， 因 为 软件 开发 人 员 并 不 了 解 这 个 调 铜 的 原理 ， 以 及 该 如 何 防止 这 样 的 攻击 。 




















QW http://voices.washingtonpost.com/securityfix/heartlandIndictment.pdf, 
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21.1 目标 : 编写 SQL 动态 查询 


SQL 常 和 程序 代码 一 起 使 用 。 我 们 通常 所 说 的 SQL 动态 查询 ”, 是 指 将 程序 中 的 变量 和 基本 
SQL 语句 拼接 成 一 个 完整 的 得 询 语句 。 





SQL-Injection/obj/dynamic-sqlphp 


<?php 
$sql = "SELECT * FROM Bugs WHERE bug_ id = $bug_id"; 
$stmt = $pdo->query($sql); 


这 个 简单 的 例子 展示 了 如 何 将 PHP 变量 插入 到 一 个 SQL 查询 语句 中 。 我 们 期 望 $bbug_id 是 
一 个 整 型 ， 因 此 当 数 据 库 接收 到 这 个 请 求 时 ，$bug_id 的 值 就 是 查询 语句 的 一 部 分 。 


SQL 动态 查询 是 有 效 利用 数据 库 的 很 目 然 的 方法 。 当 你 使 用 程序 内 的 变量 来 指定 如 何 进 行 
查询 时 , 就 是 在 将 SQL 作为 链接 程序 和 数据 库 的 桥梁 。 程序 和 数据 库 之 间 通 过 这 种 方式 进行 “对 
话 。 

然而 ,要 让 程序 按照 你 想 要 的 方式 执行 并 不 难 ， 难 的 是 要 让 程序 变 得 安全 ,不 执行 你 不 想 让 
它 执 行 的 操作 。 但 软件 在 受到 SQL 注入 攻击 时 ， 通 第 都 无 法 保证 安全 。 


21.2 反 模式 : 将 未 经 验证 的 输入 作为 代码 执行 


当 往 SQL 查询 的 字符 串 中 插入 别 的 内 容 ， 而 这 些 被 插入 的 内 容 以 你 不 希望 的 方式 修改 了 查 
询 语 句 的 语法 时 ，SQL 注入 就 成 功 了 。 在 传统 的 SQL 注入 案例 中 ， 所 插入 的 内 容 首先 完成 一 个 
查询 ， 然 后 再 执行 第 二 个 完整 的 查询 逻辑 。 比 如 ， 如 末 $bug_id 的 值 是 1234; DELETE FROM 
Bugs， 之 前 例子 中 的 查询 语句 最 终 会 变 成 这 样 : 











SQL-Injection/anti/delete.sql 


SELECT * FROM Bugs WHERE bug_ id = 1234; DELETE FROM Bugs 


这 种 类 型 的 SQL 注入 比较 明显 ， 就 如 图 21-1 的 这 个 故事 一 样 。 通 常 这 些 缺 陷 隐 藏 得 比较 
好 ， 但 还 是 会 有 人 危险 。 








@ 技术 上 来 说 ， 任 何在 运行 时 解析 的 查询 都 是 SQL 动态 查询 ， 但 通常 在 实际 中 ，SQL 动态 查询 指 的 是 在 语句 中 包 
含 变量 数据 的 查询 请 求 。 
@ 漫画 由 Randall Munroe 所 绘 (http:/xkcd.com/327) 已 经 许可 。 
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嗨 ， 这 是 你 儿子 的 哦 ， 天 哪 ， 他 弄 坏 | 你 是 真 的 把 你 儿子 的 名 我 们 丢 了 这 学 年 区 
这 下 你 襄 


学 校 , 我 们 的 电脑 了 什么 东西 o9? 字 填 写成 Rorert ); Drop 学 生 记录 ， 
有 一 些 问题 。 某 种 角度 ……: TABLE Students;--? 兴 了 吧 ， 


J 
R 人 & : ~ 是 的 ， 我 们 叫 他 、 我 希 旦 你 们 这 
! LITTLE RORRY 次 该 学 会 如 何 
TI | TARLES., 请 理 你 们 的 数 
据 库 输 入 了 。 


21-1 妈妈 的 功绩 





21.2.1 意外 无 处 不 在 


假设 你 正在 为 Bug 数据 库 编 写 一 个 Web 程序 ， 其 中 的 一 个 页 面 允许 你 根据 名 字 访 问 项 目 : 


SsQL-Injection/anti/ohare.php 

<?php 

$project name = $_ REQUEST["name™"]; 

$sql = "SELECT * FROM Projects WHERE project name = '$proJject name'™; 

当 你 的 开发 小 组 开始 为 之 加 琳 的 O'Hare 国际 机 场 开 发 软件 时 ， 同 题 出 现 了 。 你 们 很 目 然 
地 给 这 个 项 目 取 名 为 “OHare”， 在 你 们 的 Web 程序 中 ， 要 怎样 提交 一 个 请 求 才 能 看 到 这 个 项 目 
呢 ? 


http://bugs.example.com/project/view.php?name=0'Hare 


你 的 PHP 代码 接受 了 请 求 参数 并 插入 到 SQL 查询 语句 中 , 但 是 实际 生成 的 SQL 语句 却 不 是 
大 家 所 期 望 的 : 





SQL-Injection/anti/ohare.sql 


SELECT * FROM Projects WHERE project name = 0O Hare- 


由 于 字符 串 是 被 两 个 单 引 号 所 包围 ， 生 成 的 SQL 语句 中 包含 了 一 个 很 短 的 '0' ， 然 后 是 一 些 
额外 的 字符 ， 在 这 个 例子 中 ，Hare ' 设 有 任何 意义 。 对 于 这 样 的 SQL 语句 ， 数据库 只 能 返回 一 个 
语法 错误 的 提示 。 这 的 确 是 一 个 总 外 。 发 生 任何 不 好 的 事情 的 风险 还 古 比 较 小 的 ， 因 为 语法 错 谍 
的 SQL 语句 是 不 会 被 执行 的 。 风 险 较 大 的 情况 是 产生 的 SQL 没有 任何 语法 错误 ， 并且 以 一 种 你 
所 不 希望 的 方式 执行 。 


21.2.2 ”对 Web 安 全 的 严重 威胁 


当 攻 击 者 能 够 使 用 SQL 注入 操控 你 的 SQL 奉 询 语句 时 , 它 束 变 成 了 一 个 巨大 的 威胁 。 比 如 ， 
你 的 程序 可 能 允许 用 户 以 如 下 方式 修改 密码 : 
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SQL-Injection/anti/set-password.php 


<?php 

$password = $_ REQUEST["password"]; 

$userid = $ REQUEST["userid"]; 

$sql = "UPDATE Accounts SET password hash = SHA2('$password"') 
WHERE account 1d = $userid"; 


一 个 聪明 的 攻击 者 会 猜测 你 的 每 个 请 求 参 数 对 应 在 SQL 语句 中 的 作用 ， 并 且 精 心 选择 每 个 
参数 对 应 的 值 : 

http://bugs.example.com/setpass?password=xyzzy&userid=123 OR TRUE 

通过 在 userid 这 个 参数 后 插入 额外 的 字符 串 , 攻击 者 改变 了 对 应 的 SQL 语句 的 意义 。 现 在 ， 
这 条 语句 会 改变 每 一 个 用 户 的 密码 ， 而 不 是 只 改变 一 个 用 户 : 


SQL-Injection/anti/set-password.sql 





UPDATE Accounts SET password hash = SHA2( 'xyzzy ') 
WHERE account_1d = 123 OR TRUE ; 


这 是 理解 SQL 注入 的 关键 , 也 是 如 何 防止 SQL 注 入 的 关键 : SQL 注 入 是 通过 在 SQL 语句 被 
数据 库 解 析 之 前 ， 以 修改 其 语法 的 形式 工作 的 。 只 要 你 在 解析 语句 之 前 插入 动态 部 分 ， 就 存在 
SQL 注 入 的 风险 。 

有 数 不 尽 的 方法 选择 一 个 恶意 的 字符 串 来 改变 SQL 语句 的 行为 。 它 只 受制 于 攻击 者 的 想象 
力 和 你 你 护 SQL 语句 的 能 力 。 

21.2.3 寻找 治 剑 民 方 

既然 我 们 已 经 知道 了 SQL 注入 的 风 辽 ， 下 一 个 辐 题 便 征 : 要 做 什么 来 使 代码 远离 SQL 注 入 
呢 ? 可 能 你 之 前 读 过 一 些 博文 或 者 一 些 文章 ， 声 称 菜 一 种 技术 是 对 抗 SQL 注入 的 万 能 约 。 而 事 
实 上 ， 这 些 技术 都 被 证 明 无 法 阻挡 所 有 类 型 的 SQL 注入 。 因 此 你 需要 在 不 同 的 情况 下 将 所 有 这 
些 技术 组 合 起 来 使 用 。 

转 义 

防止 SQL 语句 包含 任何 不 匹配 的 5313 的 最 古老 的 方法 ， 就 是 对 所 有 的 31 号 字符 进行 转 义 操 
作 ， 使 它们 不 至 于 成 为 字符 帅 的 结束 符 。 在 标准 SQL 中 ， 可 以 使 用 两 个 连续 的 单 引 号 来 表示 一 
个 单 9[ 号 字 丢 : 


SQL-Injecftion/anti/ohare-escape.sdl 





SELECT * FROM Projects WHERE project name = '0"'Hare’ 
大 多 数 的 数据 库 还 支持 使 用 反 斜 杠 对 单 引 号 字符 进行 转 义 操作 , 就 和 大 多 数 其 他 的 编程 语言 
一 样 : 
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SAQL-Injection/anti/ohare-escape.sql 
SELECT * FROM Projects WHERE project name = “ON Hare 
这 么 做 的 原理 是 ， 在 将 应 用 程序 中 的 数据 插入 到 SQL 语句 之 前 就 进行 转换 。 大 多 数 SQL 的 
编程 接口 都 会 提供 一 个 简便 的 函数 来 做 这 个 操作 。 比 如 ， 在 PHP 的 PDO 扩 展 中 ， 可 以 使 用 一 个 
quoteO 国 数 来 定义 一 个 包含 引号 的 字符 串 或 者 还 原 一 个 字符 串 中 的 引号 字符 。 


SQL-Injection/anti/ohare-escape.php 





<?php 
$project name = $pdo->quote($ REQUEST["name"]); 
$sql = "SELECT * FROM Projects WHERE project name = $project name"; 


这 种 技术 能 够 减少 由 于 动态 内 容 中 不 匹配 的 引号 所 造成 的 SQL 注入 的 风险 。 但 在 非 字 符 串 
内 容 的 情况 下 ， 这 种 技术 就 会 失效 。 
SAQL-Injection/anti/set-password-escape.php 


<?php 

$password = $pdo->quote($ REQUEST["password"™ |]); 

$userid = $pdo->quote($ REQUEST["userid"]); 

$sql = "UPDATE Accounts SET password hash = SHA2($password) 
WHERE account 1d = $userid"; 


SQL-Injection/anti/set-password-escape.sql 


UPDATE Accounts SET password hash = SHA2( 'xyzzy ') 
WHERE account_1d = '123 OR TRUE 


你 没 办 法 让 一 个 数值 列 直 接 和 一 个 带 有 数字 的 字符 串 进 行 比较 , 不 管 使 用 哪 款 数据 库 , 这 都 
是 不 可 能 的 。 某 些 数 据 库 可 能 会 隐 式 地 将 字符 蝇 转 换 成 一 个 等 价 的 数字 ， 但 在 标准 SQL 中 , 在 
将 字符 串 转 换 成 数字 时 ， 一 定 要 明确 使 用 CASTO 〇 函数。 

在 一 些 案例 中 , 有些 使 用 非 ASCII 编码 的 字符 串 在 经 过 了 对 引号 字符 进行 转 义 的 函数 的 处 理 
后 ， 依 旧 保 持 引 号 字符 没有 任何 改变 。~ 

查询 参数 


一 个 经 营 被 认为 是 防止 SQL 注入 的 万 能 型 解决 方案 征 使 用 查询 参数 。 不 同 于 在 SQL 语句 中 
插入 动态 内 容 ， 查 询 参 数 的 做 法 是 在 准备 查询 语句 的 时 候 ， 在 对 应 参数 的 地 方 使 用 参数 占 位 符 。 
随后 ， 在 执行 这 个 预先 准备 好 的 碍 询 时 提供 一 个 参数 。 


SQL-Injection/anti/parameter.php 

















<?php 

$stmt = $pdo->prepare("SELECT * FROM Projects WHERE project_ name = ?"); 
$params = array($ REQUEST["name"]); 

$stmt->execute($params); 


@ 可 以 参考 http://bugs.mysql.com/8378。 
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大 多 数 开发 人 员 都 推荐 这 个 方案 , 因为 你 不 需要 对 动态 内 容 进行 转 义 , 或 者 担心 有 缺陷 的 转 
义 函数 。 事 实 上 ， ee 。 但 是 这 还 不 是 一 个 
通用 的 解决 方案 ， 因 为 查询 参数 总 伞 视 为 古 一 个 字面 值 。 


D 多 个 值 的 列表 不 可 以 当成 单一 参数 : 


SQL-Injection/anti/parameter.php 


<?php 
$stmt = $pdo->prepare("SELECT * FROM Bugs WHERE bug id IN ( ? )"); 
$stmt->execute(array("1234,3456,5678")); 


这 样 的 做 法 会 导致 数据 库 认 为 传人 的 是 一 个 包含 数字 和 运气 的 字符 串 ， 处 理 过 程 和 将 一 
系列 整数 作为 参数 进行 查询 并 不 一 样 : 


SQL-Injection/anti/parameter.sql 


SELECT * FROM Bugs WHERE bug id IN ( '1234,3456,5678' ) 
D 表 名 无 法 作为 参数 : 


SQL-Injection/anti/parameter.php 


<?php 
$stmt = $pdo->prepare("SELECT * FROM ? WHERE bug_ id = 1234"); 
$stmt->execute(array("Bugs")); 


这 么 做 是 想 将 一 个 字符 串 插 入 表 名 所 在 的 位 置 ， 但 只 会 得 到 一 个 语法 错误 的 提示 : 


SAQL-Injection/anti/parameter.sql 


SELECT * FROM ‘Bugs' WHERE bug_ id = 1234 


D 列 名 无 法 作为 参数 : 


SQL-Injection/anti/parameter.php 


<?php 
$stmt = $pdo->prepare("SELECT * FROM Bugs ORDER BY ?"); 
$stmt->execute(array("date reported")); 


在 这 个 例子 中 ， 排 序 是 一 个 无 效 操作 ， 因 为 排序 表达 式 是 一 个 常量 字符 串 ， 对 所 有 行 都 
是 一 样 的 : 


SQAQL-Injection/anti/parameter.sql 





SELECT * FROM Bugs ORDER BY ‘date reported'; 
D SQL 关键 字 不 能 作为 参数 : 


SQL-Injection/anti/parameter.php 


<?php 
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$stmt = $9pdo->prepare( 人 "SELECT * FROM Bugs ORDER BY date_reported ?"); 
$stmt->execute(array("DESC")); 


参数 将 被 当做 字面 字符 串 插入 而 非 SQL 关键 字 。 在 这 个 例子 中 , 会 返回 语法 错误 的 提示 。 


SQL-Injection/anti/parameter.sql 





SELECT * FROM Bugs ORDER BY date reported 'DESC' 


我 的 查询 是 如 何 完成 的 


很 多 人 认为 SQL 的 查询 参数 就 是 一 种 能 自动 将 参数 巴 含 进 SQL 语句 的 技术 。 这 并 不 准 
确 ， 如 果 仅仅 这 么 想 ， 会 导致 对 这 项 技术 的 严重 误解 。 

RDBMS 服务 器 首先 会 解析 你 所 准备 好 的 SQL 查询 语句 。 在 完成 这 一 步 操作 之 后 , 就 没 
有 任何 方法 能 够 改变 那 身 SQL 查询 语句 的 结构 。 

在 执行 一 个 已 经 准备 好 的 SQL 查询 时 ， 你 需要 提供 对 应 的 和 参数， 每 个 你 提供 的 参数 前 
对 应 于 预先 准备 好 的 查询 中 的 一 个 占 位 符 。 

你 可 以 重复 执行 这 个 预先 准备 好 的 查询 ， 只 要 使 用 新 的 参数 替换 掉 老 的 参数 就 nt 
此 ，RDBMS 系统 必须 将 查询 操作 和 对 应 的 传 入 和 参数 分 开 跟 踪 。 这 对 于 系统 实 全 (人 
好 事 。 

这 意味 着 ， 如 果 你 获取 到 一 个 预先 准备 好 的 SQL 查询 语句 ， 它 里 面 是 不 会 包含 任何 实 
际 的 参数 值 的 。 当 你 调试 或 者 记录 查询 时 ， 很 方便 就 能 看 到 带 有 参数 值 的 SQL 语 身 ， 但 这 
些 值 永远 不 会 以 可 读 的 SQL 形式 整合 到 查询 中 去 。 

调试 动态 化 SQL 语句 的 最 好 方法 ， 就 是 将 准备 阶段 的 带 有 占 位 符 的 查询 语句 和 执行 阶 
段 传 入 的 参数 都 记录 下 来 。 


存储 过 程 


OO 前 来 说 ， 存 储 过 程 包含 固 
定 的 SQL 语句， 这 些 语句 是 在 定义 这 个 存储 过 程 的 时 候 被 解析 的 。 


然而 ， 在 存储 过 程 中 也 是 可 以 使 用 SQL 动态 查询 的 ， 而 这 么 做 也 会 有 安全 隐患 。 在 下 面 的 
这 个 例子 中 ，input_userid 参数 会 被 直接 替换 到 SQL 查询 中 ， 而 这 么 做 很 不 安全 。 


SQL-Injection/anti/procedure.sql 





CREATE PROCEDURE UpdatePassword(input _ password VARCHAR(20), 
1nput_userid VARCHAR(20)) 
BEGIN 
SET Qsql = CONCAT('UPDATE Accounts 
SET password hash = SHA2(", QUOTE(T1Npuyt_password), ') 
WHERE account _ 1d = ", 1input_ user1d); 
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PREPARE stmt FROM @sdqd 1 ; 
EXECUTE stmt; 
END 


在 存储 过 程 中 使 用 SQL 动态 查询 ， 一 点 也 不 比 在 程序 代码 中 直接 使 用 SQL 动态 查询 安全 。 
这 个 input_userid 参数 可 以 包含 有 害 的 内 容 ， 并 且 造 成 最 终 执行 的 SQL 语句 变 得 不 安全 。 





SAQL-Injection/anti/set-password.sql 

UPDATE Accounts SET password hash = SHA2( 'xyzzy ') 

WHERE account 1d = 123 OR TRUE; 

数据 访问 框 染 

你 可 能 看 过 数据 访问 框架 的 拥护 者 声称 他 们 的 库 能 够 抵御 所 有 SQL 注入 的 攻击 。 对 于 所 有 
允许 你 使 用 字符 串 方 式 传人 SQL 语句 的 框架 来 说 ， 这 都 是 扯淡 。 


民 好 的 规范 


在 我 做 了 一 个 关于 我 所 开发 的 基于 PHP 的 数据 访问 框架 的 讲座 之 后 ， 一 位 听众 站 
起 来 问 我 : “你 的 框架 能 抵挡 SQL 注入 吗 ? “我 告诉 他 ， 这 个 框架 提供 了 一 些 处 理 字 符 
串 的 函数 和 使 用 查询 参数 的 方法 。 

这 个 年 轻 人 看 上 去 很 疑惑 。“ 但 是 ， 它 能 抵挡 SQL 注入 吗 ?” 他 重复 道 。 他 在 寻求 
一 种 自动 化 的 方法 来 确保 他 没有 犯 任何 自己 都 无 从 辨认 的 错误 。 

我 告诉 他 使 用 框架 来 抵挡 SQL 注入 ， 就 好 比 使 用 牙刷 来 防止 星 牙 。 你 需要 持续 使 
用 才能 有 所 帮助 。 


没有 任何 框架 能 强制 你 写 出 安全 的 SQL 代码 。 一 个 框架 可 能 会 提供 一 系列 简单 的 函数 来 
帮助 你 , 但 很 容易 就 能 绕 开 这 些 函 数 , 然后 使 用 通常 的 修改 字符 串 的 办 法 来 编写 不 安全 的 SQL 
语句 。 


21.3 ”如何 识别 反 模 式 


事实 上 几乎 所 有 的 数据 库 应 用 程序 都 动态 地 构建 SQL 语句 。 如 采 你 使 用 拼接 字符 串 的 形式 
或 者 将 变量 插入 到 字符 是 中 的 方法 来 构建 哪 介 一句 SQL 语句 ， 那 这 一 名 查询 语句 就 会 让 应 用 程 
序 暴 露 在 SQL 注入 攻击 的 威胁 下 。 

SQL 注入 攻击 非 第 常见 ， 因 而 你 应 该 假设 在 程序 中 使 用 了 SQL 的 部 分 总 是 存在 那么 一 
两 个 漏洞 的 。 除 非 你 的 团队 专门 针对 SQL 注入 做 过 一 次 代码 审查 ， 找 到 并 且 修 复 了 相关 的 
汤 洞 。 
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规则 31: 检查 车 后 座 


如 果 你 喜欢 看 怪物 电影 ,就 会 知道 那些 可 怕 的 生物 总 是 总 欢 藏 在 车 后 座 , 等 着 你 坐 进 车 
里 。 这 教导 我 们 ， 二 万 别 假设 你 所 熟悉 的 地 方 就 一 定安 全 ， 比 如 你 的 车 。 


SQL 注入 可 以 采用 间接 的 形式 。 即 使 你 最 开始 使 用 查询 参数 安全 地 插入 用 户 提 供 的 数 
据 ， 你 也 可 能 在 后 续 的 查询 中 动态 地 使 用 这 些 数据 : 


<?php 

$sqll = "SELECT Tast name FROM Accounts WHERE account Tad = 123"; 
$row = $pdo->query($sql11)->fetchO); 

$sql2 = "SELECT * FROM Bugs WHERE MATCH(description) AGAINST ('" 


. $row[ "last name"] . 人 


在 上 一 个 查询 中 ， 如 果 用 户 使 用 了 “OHara” 这 个 用 户 名 ,或 者 故意 包 念 了 SQL 语法 
的 词 ， 又 会 发 生 什么 呢 ? 


21.4 合理 使 用 反 模 式 

这 个 反 模 式 和 本 书 中 其 他 的 反 模 式 不 同 ， 因 为 没有 任何 合理 的 理由 允许 SQL 注入 让 程序 存 
在 安全 漏洞 。 编 写 能 够 防御 SQL 注入 的 代码 ， 以 及 帮助 你 的 同事 也 这 么 做 ， 是 你 作为 一 个 软件 
开发 人 员 的 责任 。 软件 的 安全 性 是 用 其 最 薄弱 的 环节 来 衡量 的 一 一 确保 这 个 最 薄弱 的 环节 不 是 由 
你 造成 的 ! 


21.5 解决 方案 : 不 信任 任何 人 


设 有 哪 一 种 技术 能 使 SQL 代码 变 得 安全 。 你 应 该 学 习 下 面 所 接 述 的 所 有 技术 ， 并 在 合理 的 
地 方 使 用 它们 。 


21.5.1 ”过滤 输入 内 容 


你 应 该 将 所 有 不 合法 的 字符 从 用 户 输入 中 剔除 掉 ， 而 不 是 纠结 于 征 否 有 些 输入 包含 了 有 和 危 
险 的 内 容 。 也 就 是 说 ， 如 东 你 需要 一 个 整数 ， 那 加 只 使 用 输入 中 的 整数 部 分 。 根 据 你 所 使 用 的 开 
发 语言 不 同 ， 方 法 也 不 尽 相同 ， 比 如 在 PHP 中 ， 可 以 使 用 filter 扩展 : 


SQL-Injection/soln/filter.php 





<?php 

$bugid = filter_input(INPUT_GET, "bugid™", FILTER SANITIZE NUMBER_INT); 
$sql = "SELECT * FROM Bugs WHERE bug_ id = {$bugid}"; 

$stmt = $pdo->query($sql); 
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对 于 简单 的 数字 转换 ， 你 可 以 直接 使 用 类 型 转换 函数 : 
SQL-Injectiion/soln/casting.php 

<?php 

$bugid = intval($ GET["bugid"]); 

$sql = "SELECT * FROM Bugs WHERE bug_ id = {$bugid}"; 
$stmt = $pdo->query($sql1); 

你 还 可 以 使 用 正则 表达 式 来 匹配 安全 的 子 串 ， 过 滤 韭 法 内 容 : 
SQL-Injeciion/soln/regexp.php 


<?php 
$sortorder = "date reported"; // defau1t 


if (preg match("/[_[:alnum:]]+/", $_GET["order"], $matches)) { 
$sortorder = $matches[1]; 


} 


$sql = "SELECT x* FROM Bugs ORDER BY {$sortorder}"; 
$stmt = $pdo->query($sq]1); 


21.5.2 ”参数 化 动态 内 容 


如 末 查 询 中 的 变化 部 分 古 一 些 简 单 的 类 型 ， 你 应 该 使 用 查询 参数 将 其 和 SQL 表达 式 分 离 。 


SQL-Injecfion/soln/parameferphp 








<?php 

$sql = "UPDATE Accounts SET password hash = SHA2(?) WHERE account id = ?"; 
$stmt = $pdo->prepare($sql); 

$params = array($ REQUEST["password"], $_ REQUEST["userid"]):; 
$stmt->execute($params); 


我 们 看 到 21.2 证 中 ， 一 个 参数 只 能 锌 珍 换 为 一 个 值 。 如 用 你 站 在 RDMBS 解析 完 SQL 语 
句 之 后 才 插 入 这 个 参数 值 ， 没 有 哪 种 SQL 注入 的 攻击 能 够 改变 一 个 参数 化 了 的 查询 的 语法 结 
构 。 即 使 攻击 者 尝试 使 用 带 有 恶意 的 参数 值 ， 诸 如 123 OR TRUE，RDBMS 会 将 这 个 字符 串 当 
成 一 个 完整 的 值 插入 。 最 坏 情况 下 ， 这 个 查询 没 办 法 返回 任何 记录 ， 它 不 会 返回 错误 的 行 。 
这 个 恶意 串 最 终 可 能 会 导致 程序 生成 如 下 的 查询 语句 ， 但 这 条 语句 无 害 : 


SQL-Injection/soln/parameter.sql 





UPDATE Accounts SET password hash = SHA2( 'xyzzy ') 
WHERE account_1d = '123 OR TRUE 


当 需 要 将 程序 中 的 变量 以 字符 串 形式 插入 SQL 表达 式 中 时 ， 应 该 使 用 查询 参数 。 
21.5.3 ”给 动态 输入 的 值 加 引号 


查询 参数 通 第 来 说 是 最 好 的 解决 方案 , 但 在 有 些 很 特殊 的 情况 下 ,参数 的 占 位 符 会 导致 得 询 
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优化 如 无 法 正确 选择 使 用 哪个 索引 来 进行 优化 。 


比如 说 ， 假 设 在 Accounts 表 中 有 一 个 is_active 列 。 这 一 列 中 99% 的 记录 都 是 真实 值 。 对 
is_active = false 的 查询 会 得 益 于 这 一 列 上 的 索引 ， 但 对 于 is_active = true 的 查询 却 会 在 
读 取 索引 的 过 程 中 浪费 很 多 时 间 。 然而， 如果 你 用 了 一 个 参数 1s_active = ?来 构造 这 个 表达 式 ， 
优化 如 不 知道 在 预 处 理 这 条 语句 的 时 候 你 最 终 会 传 入 哪个 值 , 因此 很 有 可 能 就 选择 了 错误 的 优化 
方案 。 

要 规避 这 样 的 问题 ， 直 接 将 变量 内 容 插 入 到 SQL 语句 中 会 是 更 好 的 方法 ， 不 要 去 理会 查询 
参数 。 一 旦 你 决定 这 么 做 了 ， 就 一 定 要 小 心地 引用 字符 串 。 


SQL-Injecfion/solm/interpolate.php 








<?php 

$quoted active = $pdo->quote($ REQUEST["active"]); 

$sql = "SELECT * FROM Accounts WHERE 1s _ active = {$quoted active}"; 
$stmt = $pdo->query($sq]1); 


你 需要 确信 所 使 用 的 函数 是 经 过 严格 测试 的 、 不 会 党 有 SQL 安全 隐患 的 。 大 多 数 的 数据 库 
访问 库 都 包含 一 个 这 样 的 字符 串 引 用 处 理 函 数 。 比 如 在 PHP 中 ， 可 以 使 用 PDO: :quoteGO 。 别 总 
想 着 目 己 实现 一 个 这 样 的 函数 ， 除 非 你 对 所 有 的 安全 风险 有 深入 的 了 解 。 


21.5.4 将 用 亡 与 代码 隔离 
查询 参数 和 转 义 字符 能 帮助 你 将 字符 串 类 型 的 值 插入 到 SQL 表达 式 中 ， 但 这 些 技 术 在 需要 
插入 表 / 列 名 或 者 SQL 关键 字 的 时 候 不 起 作用 。 你 需要 邑 一 项 技术 来 使 得 这 些 部 分 也 能 动态 化 。 


假设 你 的 用 户 想 要 能 够 选择 以 什么 方式 给 Bug 排序 ,比如 按照 状态 或 者 按照 提交 的 日 期 以 及 
排序 的 方向 。 


SQL-Injection/soln/orderby.sql 





SELECT * FROM Bugs ORDER BY status ASC 
SELECT * FROM Bugs ORDER BY date reported DESC 


在 如 下 的 例子 中 , PHP 脚本 接收 order 和 dir 两 个 参数 , 然后 代码 将 用 户 的 选择 作为 列 名 和 
关键 字 ， 插 入 到 SQL 查询 中 。 


SQL-Injectiion/soln/mapping.php 


<?php 

$sortorder = $ REQUEST["order"]; 

$direction = $_ REQUEST["dir"]; 

$sql = "SELECT * FROM Bugs ORDER BY $sortorder $direction"; 
$stmt = $pdo->query($sq]1); 


这 个 脚本 假设 order 字段 包含 了 一 个 列 名 , dir 字段 为 ASC 或 者 DESC。 但 这 并 不 是 一 个 安 


到 灵 社 区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


21.5 解决 方案 : 不 信任 任何 人 如 199 


全 的 假设 ， 因 为 用 户 在 网 络 请 求 中 可 以 随意 传递 参数 的 值 。 


参数 化 INO 操 作 


我 们 知道 你 不 能 将 一 个 由 运 号 分 割 的 字符 串 当 做 单个 参数 传 入 , 你 需要 跟 你 的 对 象 列 表 
一 样 多 的 参数 。 

比如 需要 通过 主键 来 查询 6 个 Bug， 你 将 这 个 列表 存在 数组 变量 gbug_1ist 中 : 

<?php 

$sql = "SELECT * FROM Bugs WHERE bug_ id IN (?, ?, ?, ?, ?, ?)"); 

$stmt = $pdo->prepare($sq1) ; 

$stmt->execute($bug_1ist); 

仅 当 $bug_l1ist 中 正好 包含 6 个 值 ， 和 占 位 符 的 数量 完全 匹配 ， 上 面 这 条 语句 才能 正常 
工作 。 你 应 该 动态 地 创建 INO 这 个 语句 ， 使 用 和 $bug_1ist 中 数据 个 数 一 样 多 的 占 位 符 。 

下 面 的 PHP 例子 使 用 了 一 些 PHP 内 置 的 数组 函数 来 生成 一 个 占 位 符 数 组 ， 其 条 目 个 数 
和 $bug_list 的 条 目 个 数 一 致 ， 然 后 在 插入 到 SQL 表达 式 之 前 ， 将 这 些 数组 用 过 号 拼接 在 
一 起 ， 

<?php 

$sql = "SELECT * FROM Bugs WHERE bug_id IN (" 

:Joimn(' array filliCO count($bug 11st) “2 ")"; 


$stmt = $pdo->prepare($sq1) ; 
$stmt->execute($bug_1ist); 


用 这 个 技巧 来 参数 化 一 个 列表 。 


对 应 的 解决 方案 征 , 将 请 求 的 参数 作为 索引 值 去 查找 预先 定 义 好 的 值 , 然后 用 这 些 预先 定义 
好 的 值 来 组 织 SQL 查询 语句 。 


(1) 声明 一 个 ysortorders 数组 , 将 用 户 的 可 选项 作为 索引 值 , 将 SQL 的 列 名 作为 对 应 的 值 。 
声明 一 个 gdi rections 数组 , 将 用 户 的 可 选项 作为 索引 , 将 SQL 关键 字 ASC 和 DESC 作为 对 应 
的 值 。 


sQL-Injection/soIn/mapping.php 


$sortorders = array( "status" => "status", "date”" => "date reported” ); 
$directions = array( "up => "ASC", "down™” => "DESC™” ); 


(2) 当 用 户 的 选择 不 在 这 两 个 数组 中 时 ， 让 变量 $sortorder 和 $dir 等 于 默认 值 。 


sAQL-Injection/soIn/mapping.php 


$sortorder = "bug_id"; 
$direction = "ASC"; 
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(3) 如 果 用 户 的 选择 在 $sortorders 和 $directions 数组 中 ， 就 使 用 对 应 的 值 。 


SQL-Injecfion/soln/mapping.php 


if (array_ key _ exists($ REQUEST["order"], $sortorders)) { 
$sortorder = $sortorders[ $ REQUEST["order"] |]; 
1 


if (array_ key exists($ REQUEST["dir™"], $directions)) { 
$direction = $directions[ $ REQUEST["dir"] ]; 
} 


(4) 现在 使 用 $sortorder 和 $direction 这 两 个 变量 就 古 安 全 的 了 ， 因 为 它们 只 能 古 在 代码 
中 预先 定义 的 值 。 


SQL-Injectiion/soln/mapping.php 





$sql = "SELECT * FROM Bugs ORDER BY {$sortorder} {$direction}"; 
$stmt = $9pdo->duery($sql1) ; 


这 种 技术 有 如 下 几 个 优势 。 

D 从 不 将 用 户 的 输入 与 SQL 查询 语句 连接 ， 因 此 减少 了 SQL 注入 的 风险 。 

oD 可 以 i 上 SQL 语句 中 的 任意 部 分 变 得 动态 化 ， 包 括 标识 、SQL 关键 字 ， 其 至 整 句 表 达 式 。 

D 使 用 这 个 方法 验证 用 户 的 输入 变 得 很 简 单 且 高 效 。 

D 能 将 数据 库 查 询 的 细节 和 用 户 界面 解 耦 。 

选项 需要 硬 编码 在 程序 中 ， 但 对 于 表明 、 列 名 和 SQL 关键 字 来 说 ， 这 么 做 还 是 很 恰当 的 。 
对 于 数据 值 的 选择 往往 是 全 量 的 字符 串 或 者 数字 ， 但 对 于 语法 标识 来 说 ， 可 选择 的 沱 围 很 小 。 


21.5.5 ” 找 个 可 靠 的 人 来 帮 你 审查 代码 


找到 环 症 的 最 好 方法 融 征 绸 找 一 双眼 睛 一 起 来 盯 着 看 。 你 需要 找 个 熟悉 SQL 注入 的 同事 来 
帮助 你 一 起 检查 代码 。 别 让 目 大 和 散 做 阻止 你 做 正确 的 事 一 一 现在 藉 认 你 的 代码 有 问题 可 能 会 
让 你 感到 唇 迫 ， 但 你 确定 更 愿意 为 起 客 利 用 安全 调 洞 攻击 网 站 而 承担 后 采 吗 ? 


在 检查 代码 是 否 包含 SQL 注入 风险 的 时 候 ， 参 考 下 面 这 几 点 。 


(1) 找 出 所 有 使 用 了 程序 变量 、 字 符 串 链接 或 者 标 换 等 方法 组 成 的 SQL 语句 。 

GO) 跟踪 在 SQL 语句 中 使 用 的 动态 内 容 的 来 源 。 找 出 所 有 的 外 部 的 输入 ， 比 如 用 户 输 入 、 文 
件 、 系 统 环境 、 网 络 服务 、 第 三 方 代码 ， 其 至 于 从 数据 库 中 获取 的 字符 串 。 

(3) 假设 任何 外 部 内 容 邦 是 次 在 的 威胁 。 对 于 不 受信 任 的 内 容 都 要 进行 过 小 、 验 证 或 者 使 用 
数组 映射 的 方式 来 处 理 。 

(4) 在 将 外 部 数据 合并 到 SQL 语句 时 ,使 用 查询 参数 ， 或 者 用 稳健 的 转 义 函数 预先 处 理 。 

(5) 别 扎 了 在 存储 过 程 的 代码 以 及 任何 其 他 使 用 SQL 动态 查询 语句 的 地 方 做 同样 的 检查 。 
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代码 检查 是 找 出 SQL 注入 缺陷 的 最 正确 和 经 济 的 方法 。 你 应 该 预 留 出 相应 的 时 间 来 做 这 件 

事 ， 并 且 将 其 视 为 项 目 开 发 过 程 中 一 个 必要 的 过 程 。 当 然 ， 你 可 以 帮助 同事 检查 代码 来 回报 他 们 
为 你 所 做 的 。 


让 用 户 输入 内 容 ， 但 永远 别 让 用 户 输 入 代码 。 
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伪 键 污 癖 


重要 的 人 不 关心 ， 关 心 的 人 不 重要 。 
伯 纳 德 。 巴 彰 克 (在 安排 晚会 餐 呆 席次 时 所 说 ) 


你 的 老板 市 着 两 份 打印 出 来 的 报告 过 来 找 你 , 说 :“ 会 计 部 的 人 说 我 们 给 出 的 这 一 季度 报告 
和 上 季度 报告 有 些 差 异 。 我 正在 看 这 两 份 报告 ， 的 确 有 差异 ， 大 部 分 最 新 的 资产 消 失 了 。 怎 么 
回 事 ? 


你 看 着 这 两 份 报告 ， 发 现 这 些 差 异 看 起 来 很 眼熟 。 不 ， 每 样 东西 都 在 那里 。 为 了 使 所 有 的 
记录 编写 都 是 连续 的 , 你 让 我 整理 过 一 次 数据 库 。 你 说 会 计 们 由 于 数字 之 间 的 断档 , 一 直 在 进 问 
你 中 间 那 些 不 见 了 的 资产 是 怎么 回 事 。 


“因此 ， 我 重新 为 一 些 记 录 编 了 号 ， 然 后 把 它们 放 在 了 原来 的 空 行 。 现 在 没有 断档 了 一 一 从 
1 到 12340 之 间 的 每 个 数字 邦 对 应 一 个 资产 。 所 有 的 东西 部 在 那里 ， 只 是 有 些 改变 了 编 纪 并 且 移 
到 上 面 去 了 。 征 你 告诉 我 这 么 做 的 。 

老板 不 住地 摇头 。“ 但 这 不 是 我 想 要 的 。 会 计 人 员 古 根据 资产 编号 来 跟踪 设备 的 折旧 状况 的 。 
每 个 设备 的 编号 要 在 每 个 邓 度 的 报告 中 保持 一 致 。 除 此 之 外 ,所 有 的 资产 编号 都 被 打印 并 且 贴 在 
了 对 应 的 设备 上 。 要 化 好 儿 周 的 时 间 来 重新 为 整个 公司 的 设备 贴 新 的 标签 。 你 能 把 所 有 的 ID 编 
号 改 回 原来 的 吗 ? 

你 想 表现 得 自己 很 合作 ， 因 此 转 回 电脑 前 开始 工作 ， 但 你 突然 想到 了 一 个 新 问题 。 在 我 将 
这 些 资产 ID 改 回 原来 的 之 后 ， 这 个 月 严 的 那些 新 资产 怎么 办 ? 有些 新 资产 使 用 了 我 重新 编 纪 之 
前 就 已 在 使 用 的 编写 。 如 东 我 把 资产 ID 都 改 回 原来 的 值 ， 要 怎么 处 理 这 些 钟 突 ? “ 


22.1 目标 : 整理 数据 
人 确实 有 这 么 一 种 人 ， 他 们 会 为 一 系列 数据 的 断档 而 抓 狂 。 
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bug_id status product_name 
1 OPEN Open RoundFile 
2 FIXED ReConsider 
4 OPEN ReConsider 


一 方面 ，bug_id 3 这 一 行 确实 发 生 过 一 些 事情 。 为 什么 这 个 查询 不 返回 这 个 Bug? 这 条 记 
东 丢 失 了 吗 ? 那个 Bug 到 底 是 什么 ?这 个 Bug 是 我 们 的 一 个 重要 客户 提交 的 吗 ? 我 要 为 这 条 数 
据 的 丢失 负责 吧 ? 


对 于 具有 伪 键 车 妆 这 个 反 模 去 的 那些 人 来 说， 他们 的 目的 就 是 要 解决 这 些 麻 烦 的 问题 。 这 些 
人 对 数据 的 完整 性 问题 人 负 贡 , 但 通常 来 说 ,他 们 对 数据 库 不 够 了 解 ， 或 者 不 怎么 相信 数据 库 所 生 
成 的 报表 。 


22.2 反 模 式 : 填充 角落 
大 多 数 人 对 于 断档 的 第 一 反应 就 是 想 要 填补 其 中 的 空缺 。 对 此 ， 可 能 会 有 两 种 做 法 。 
22.2.1 不 按照 顺序 分 配 编号 


你 可 能 想 要 在 插入 新 行 时 ,通过 志 历 表 ， 将 找到 的 第 一 个 未 分 配 的 主键 编 三 分 配给 新 行 , 来 
代替 原来 自动 分 配 的 伪 主 键 机 制 。 随 着 你 不 断 地 插入 新 行 ， 断 档 就 被 填补 起 来 了 。 














bug_id status product_name 
1 OPEN Open RoundFile 
2 FIXED ReConsider 
4 OPEN ReConsider 
3 NEW Visual TurboBuilder 


然而 ， 为 了 找到 第 一 个 未 被 使 用 的 值 ， 你 不 得 不 执行 一 个 不 必要 的 目 联 合 碍 询 : 
Neat-Freak/anti/lowest-value.sql 


SELECT bl.bug id + 1 

FROM Bugs bl 

LEFT OUTER JOIN Bugs AS b2 ON (bl.bug id + 1 = b2.bug 1d) 
WHERE b2 .bug_ 1d IS NULL 

ORDER BY bl.bug 1d LIMIT 工 ; 


在 本 书 的 前 几 音 中, 我 们 解释 过 在 创建 唯一 标识 的 主键 时 , 如 条 使 用 SELECT MAXCbug_id)+1 
这 种 查询 语句 ， 则 会 出 现 并 发 访问 的 问题 。 如 果 有 两 个 程序 同时 想 要 找到 最 小 的 未 使 用 值 时 ， 
也 会 出 现 同样 的 问题 ， 结 来 就 是 一 个 成 功 ， 男 一 个 失败 。 况 且 ， 这 个 方法 既 低 效 ， 也 容易 导致 


问题 。 
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22.2.2 ”为 现 有 行 重新 编号 

在 茶 些 情 况 下 ,你 可 能 急 着 想 要 让 所 有 的 主键 变 得 连续 ， 而 等 着 新 行 米 填补 空缺 不 够 快 。 你 
可 能 会 考虑 更 新 现 有 行 的 主键 值 ， 让 其 变 得 连续 ， 从 而 消除 断档 。 通 第 这 样 的 做 法 是 找到 主键 最 
大 的 行 ， 然 后 用 最 小 的 未 被 使 用 的 值 来 更 新 它 。 比 如 ， 你 可 以 将 4 更 新 为 3: 


Neat-Freak/anti/renumber.sql 





UPDATE Bugs SET bug_ 1d = 3 WHERE bug_ 1d = 4; 


bug_id status product_name 
1 NEW Open RoundFile 
FIXED ReConsider 
3 DUPLICATE ReConsider 


要 完成 这 一 步 , 你 需要 使 用 和 前 和 面 一 种 方法 中 插入 新 行 类 似 的 方法 。 先 找到 一 个 未 被 使 用 的 
值 ， 随 后 执行 UPDATE 语句 来 重新 分 配 主键 值 。 这 两 步 都 会 引起 并 发 访问 的 问题 。 而 且 ， 你 需要 
重复 执行 很 多 次 这 样 的 操作 ， 才 能 将 较 大 的 断档 填 满 。 

你 必须 同时 更 新 所 有 引用 了 你 重新 分 配 了 主键 的 行 的 子 记录 。 如 采 你 在 定义 外 键 时 , 使 用 了 
ON UPDATE CASCADE 选项 ， 这 一 步 会 变 得 很 方便 ， 但 如 末 你 没 这 么 做 ， 就 必须 先 禁 用 约束 ， 手 动 
更 新 所 有 的 子 记录 ， 然 后 恢复 约束 。 这 是 一 个 费时 费力 且 容 易 出 错 的 操作 , 并且 可 能 会 影响 到 数 
据 库 的 服务 ， 正 省 人 都 会 避免 这 么 做 的 。 


即使 你 完成 了 清理 操作 “整洁 ”也 是 个 “短命 鬼 。 当 数据 库 生 成 一 个 新 的 伪 键 时 ， 这 个 值 
是 根据 上 次 生成 的 值 来 计算 的 (即使 上 次 生成 的 这 条 记录 已 经 被 删除 了 ， 也 不 会 有 任何 影响 )， 
并 不 古 按 照 现 有 记录 中 的 最 大 值 来 计算 的 , 这 和 一 些 数 据 库 开 发 人 员 的 假设 相 违背 。 假设 你 将 最 
大 的 bug_id 4 更 新 为 最 小 的 未 被 使 用 的 值 ， 然 后 消除 了 一 个 断档 ， 下 一 次 你 使 用 默认 的 伪 键 生 
成 妮 插 入 新 行 时 ， 生 成 的 伪 键 是 5， 这 就 会 在 4 的 地 方 产生 一 个 新 的 断档 。 


22.2.3 ”制造 数据 差异 

Mitch Ratcliffe 说 :“ 计 算 机 是 人 类 历史 中 最 容易 让 你 犯 更 多 错误 的 发 明 …… 除了 手枪 和 龙 
舌 兰 之 外 。 “ 

本 章 最 开始 的 故事 描述 了 重 编号 主键 所 存在 的 一 些 隐 患 。 如 果 别 的 外 部 系统 依赖 于 数据 库 中 
的 主键 来 定义 数据 ， 那 么 你 的 更 新 操作 就 会 使 那个 系统 中 的 引用 失效 。 

重用 主键 并 不 是 一 个 好 主意 ， 因 为 断档 往往 是 由 于 一 些 合理 的 删除 或 者 回 滚 数据 所 造成 的 。 
比如 ， 假 设 一 个 account_id 为 789 的 用 户 由 于 发 送 带 有 人 身 攻 击 性 的 邮件 而 被 封号 。 产 品 策略 




















@ MIT Technology Review，1992 年 4 月 。 
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要 求 你 删除 这 个 账号 , 但 如 末 你 重用 了 主键 ,就 会 在 某 一 个 时 间 点 将 789 分 配给 另 一 个 用 户 。 由 
于 收 件 人 可 能 在 删除 后 的 某 一 个 时 间 点 才 打 开 这 些 邮件 ,他 们 还 会 投诉 789 这 个 账号 的 用 户 。 尽 
管 这 个 用 户 本 身 没有 做 错 任 何事 情 ， 但 是 他 被 分 配 了 一 个 需要 为 此 负 员 的 编号 。 


别 因为 这 些 伪 键 看 上 去 像 是 疫 用 的 而 重新 分 配 它 们 。 
22.3 如何 识别 反 模 式 


如 末 你 发 现 团 队 成 员 则 了 如 下 儿 个 回 题 ， 那 么 他 们 可 能 使 用 了 “ 伪 键 洁癖 ”这 个 反 模 式 .。 


D“ 在 我 回 敌 了 一 个 插入 操作 后 ， 要 怎么 重用 那个 目 动 生成 的 标识 ?“ 
伪 键 一 旦 生成 后 不 会 回 滚 。 如 东非 要 回 敌 ，RDBMS 就 必须 在 一 个 事务 的 生命 周期 内 生成 
一 个 伪 键 ， 而 这 在 多 个 客户 端 并 发 地 插入 数据 时 ， 会 叶 致 范 争 或 者 死 锁 。 
D 口 bug_id 为 4 的 这 条 记录 怎么 了 ? 
这 是 对 一 个 序列 的 主键 中 未 使 用 的 数字 而 感到 焦虑 的 表现 。 
D“ 我 要 怎么 找到 第 一 个 未 使 用 的 ID? 
要 这 么 做 的 原因 几乎 肯定 就 是 要 重新 分 配 ID 了 。 
D “如 林 达 到 了 数字 标识 的 最 大 值 怎么 办 ? 
这 通 肖 是 重新 使 用 未 使 用 的 ID 的 正当 理由 。 


22.4 合理 使 用 反 模 式 


没有 理由 改变 伪 键 的 值 ， 因为 它 的 值 本 里 并 没有 什么 重要 的 音义。 如 末 这 个 主键 列 有 实际 的 
音义， 那么 这 就 是 一 个 自然 键 ， 而 不 古 伪 键 。 改 变 目 然 键 的 值 并 不 奇怪 。 


22.5 解决 方案 : 克服 心里 障碍 

主键 的 值 必须 是 唯一 且 非 空 的 ,因而 你 才能 使 用 主键 来 唯一 确定 一 行 记录 , 但 这 是 主键 的 只 
一 约束 一 它们 不 一 定 非得 是 连续 值 才 能 用 来 标记 行 。 
22.5.1 定义 行 号 


大 多 数 伪 键 返回 的 数字 看 起 来 就 像 行 写 一 样 ， 因 为 它们 就 是 依次 递增 的 (每 一 个 新 返回 的 值 
都 比 前 一 个 值 大 1),， 但 这 只 是 由 于 伪 键 实现 机 制 所 造成 的 巧合 而 已 。 按 照 这 样 的 方式 生成 主键 
值 能 比较 方便 地 确保 唯一 性 。 


别 把 主键 值 和 行 号 混为一谈 。 主键 是 用 来 标识 表 中 记录 的 , 而 行 写 古 用 来 标识 查询 结 来 集中 
记录 的 。 查 询 结 来 集中 的 行 号 和 主键 没有 一 丁 态 关系 ， 尤 其 是 当 你 使 用 了 JOIN、GROUP BY 或 者 
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ORDER BY 这 些 操作 人 符 的 时 候 。 

有 很 多 使 用 行 志 的 好 理由 ， 比 如 ,返回 一 个 查询 结 采 集 的 子 集 。 通 节 我 们 称 之 为 分 页 ， 就 像 
在 网 络 搜 索 时 的 一 页 。 要 选择 一 个 子 集 ,， 你 需要 使 用 到 实际 的 连续 增长 的 行 纪 ,但 和 查询 的 形式 
J 

SQL:2003 定义 了 包括 ROW_NUMBERQO) 在 内 的 一 些 窗口 耶 数 ,返回 一 个 查询 结 来 集中 一 段 连续 
的 行 。 通 稍 使 用 行 亏 的 作用 是 将 碍 询 结 采 限制 在 一 个 特定 的 范 围 内 。 


Neat-Freak/soln/row_number.sql 


SELECT tl1.x FROM 
(SELECT a.account name, b.bug_1d, b.summary, 
ROW_NUMBER(C) OVER (ORDER BY a.account name, b.date reported) AS rn 
FROM Accounts a JOIN Bugs b ON (a.account 1d = b.reported by)) AS t1 
WHERE tl1.rn BETWEEN 51 AND 100; 


这 些 孙 数目 前 已 经 被 很 多 主流 数据 库 所 支持 ， 包 括 Oracle、Microsoft SQL Server 2005、IBM 
DB2、PostgreSQL 8.4 和 Apache Derby。 


MySQL、SQLite、Firebird 和 Informix 还 不 支持 SQL:2003 的 窗口 函数 ， 但 它们 有 一 些 独 有 


的 语法 能 用 来 处 理 本 节 所 描述 的 问题 。MySQL 和 SQLite 提供 了 一 个 LIMIT 子 句 ，Firebird 和 
Informix 提供 了 使 用 FIRST 和 SKIP 关键 字 的 查询 选项 。 


22.5.2 使 用 GUID 

当然 我 们 还 可 以 生成 随机 伪 键 值 ， 只 要 你 不 会 重复 使 用 任何 数字 。 有 些 数 据 库 提 供 全 局 唯一 
标识 符 (GUID) 来 达到 这 个 目的 。 

GUID 是 一 个 128 位 的 伪 随 机 数 (通常 使 用 32 个 十 六 进 制 字符 表示 )。 由 于 GUID 的 定义 及 
其 所 要 实现 的 目的 ， 它 被 设计 成 具有 唯一 性 ， 因 此 你 可 以 用 其 作为 伪 键 。 

下 面 这 个 例子 用 的 是 Microsoft SQL Server 2005 的 语法 : 


Neat-Freak/soln/uniqueidentifier-sql2005.sql 


CREATE TABLE Bugs ( 
bug_1d UNIQUEIDENTIFIER DEFAULT NEWID(), 


3 


INSERT INTO Bugs (bug_1d, summary) 
VALUES (DEFAULT, "crashes when I save'); 
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整数 是 不 可 再 生 资 源 吗 ? 


和 伪 键 洁 癣 反 模式 有 关 的 误解 是 认为 定量 递增 的 伪 键 生成 方式 最 终 会 用 完整 数 集 , 未 十 
绸 疆 ， 不 能 混 费 任何 一 个 整数 值 。 

2 
何 数据 类 型 都 只 有 有 限 数量 的 可 选 值 ，32 位 整 型 最 人 
个 新 的 主键 ， 离 最 后 一 个 值 就 更 近 一 步 了 。 

我 们 可 以 算 一 下 : 如 果 你 每 天 24 小 时 不 停 地 插入 新 的 数据 ,平均 每 秒 产生 1000 行 记 录 ， 
用 完 32 位 整 型 所 能 表示 的 这 些 数 字 总 共 需 要 136 年。 

如 果 这 还 不 能 满足 你 的 需求 ， 那 就 使 用 64 位 整 型 。 这 样 ， 就 算 你 每 秒 产生 一 百 万 条 记 
录 ， 也 需要 584 542 年 才能 消耗 完 所 有 的 整 型 数字 。 

所 以 ， 要 把 所 有 的 整 型 用 完 几 乎 是 不 可 能 的 ! 


文 会 生成 如 下 形式 的 一 行 记录 : 


bug_id summary 
Oxff19966f868b11d0b42d00c04fc964ff Crashes when I save 


GUID 相 比 传统 的 伪 键 生成 方法 来 说， 至 少 有 如 下 两 个 优势 。 


D 可 以 在 多 个 数据 库 服务 如 上 并 发 地 生成 伪 键 ， 而 不 用 担心 生成 同样 的 值 。 
D 没有 人 会 再 抱 急 有 断档 一 一 他 们 会 已 于 抱怨 输入 32 个 十 六 进 制 字符 做 主键 。 


下 面 这 几 点 是 GUID 所 带 来 的 不 便 。 


D GUID 的 值 太 长 ， 不 便于 输入 。 
D GUID 的 值 是 随机 的 ， 因 此 找 不 到 任何 规则 或 者 依靠 最 大 值 来 判断 哪 一 行 是 最 新 插入 





ye 
D GUID 的 存储 需要 16 字 广 。 这 比 传统 的 4 字 廊 整 型 伪 键 占用 更 多 的 空间 ， 并 且 查 询 的 速 
度 更 慢 。 


22.5.3 ”最 主要 的 问题 





虽然 你 已 经 清楚 对 伪 键 重新 编号 和 一 些 相关 方案 可 能 会 造成 的 问题 , 但 你 还 有 一 个 大 问题 没 
解决 : 怎么 抵挡 一 个 斋 望 清理 数据 库 中 伪 键 断 档 的 老板 的 请 求 ? 这 是 一 个 沟通 方面 的 问题 , 而 不 
是 技术 问题 。 无 论 如 何 ， 你 需要 让 经 理 理 解 保 护 数 据 库 中 数据 完整 性 的 重要 性 。 


D 向 他 解释 SQL 的 技术 。 诚 实 往 往 是 最 好 的 方法 。 章 重 并 且 理 解 这 个 要 求 之 后 的 原因 。 比 
如 说 ， 你 可 以 这 样 告诉 经 理 : 
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“断档 看 上 去 的 确 很 奇怪 ,但 它们 是 无 害 的。 在 程序 运行 过 程 中 ， 有 些 行 被 跳 过 、 回 深 或 
者 删除 都 古 很 正常 的 。 我 们 每 次 都 为 新 插入 的 行 分 配 一 个 新 的 值 ， 而 不 古 写 代码 来 检 疯 
哪个 老 的 值 能 安全 使 用 。 这 样 能 使 得 开发 更 加 简单 ， 执 行 效率 更 高 ， 并 且 能 减少 错误 。 

口 清楚 地 表明 开销 。 改 变 主键 的 值 看 上 去 是 件 小 事 , 但 你 应 该 给 出 关于 计算 新 值 的 工作 量 、 
写 代 码 处 理 并 测试 重复 值 、 级 联 修改 整个 数据 库 中 的 数据 、 调 查 对 别 的 系统 的 影 啊 以 及 
训练 用 户 和 管理 员 使 用 新 的 存储 过 程 等 事情 所 需要 人 花费 时 间 的 实际 估算 。 

大 多 数 经 理 都 会 根据 任务 的 成 本 来 设 定 优 先 级 ， 并 且 当 他 们 面 对 真 实 的 开销 时 ， 会 撤销 
不 合理 的 请 求 。 

D 使 用 自然 键 。 如 末 你 的 经 理 或 者 别 的 数据 库 用 户 坚 持 认 为 主键 的 值 是 有 意义 的 ， 那 就 让 
主键 变 得 有 意义 。 别 使 用 伪 键 一 一 使 用 字符 串 或 者 有 意义 的 数字 。 然 后 就 很 容易 使 用 这 
些 目 然 键 所 代表 的 意思 来 解释 产生 断档 的 原因 。 

你 还 可 以 同时 使 用 伪 键 和 男 一 个 被 当成 目 然 标 识 的 属性 列 。 在 生成 的 报告 中 不 显示 伪 键 ， 
从 而 隐藏 会 让 读者 感到 不 适 的 断档 。 























将 伪 键 当做 行 的 唯一 性 标识 ， 但 它们 不 是 行 号 。 
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在 获得 所 有 证 据 之 前 就 下 结论 ， 是 一 个 重大 错误 。 


“我 在 你 们 的 产品 中 找到 了 另 一 个 Bug。” 电 话 那 头 说 。 

20 世纪 90 年 代 ， 当 我 还 是 一 个 SQL RDBMS 的 技术 支持 时 ， 接 到 这 个 电话 。 我 们 有 一 个 客 
户 以 总 是 提交 一 些 死 请 的 报告 而 出 名 。 几 乎 所 有 他 报告 的 问题 最 终 都 证 明 是 他 自己 犯 的 小 错误 ， 
而 不 是 Bug。 

“Davis 先生 ,早上 好 。 我 们 很 采 柱 能 为 你 解决 你 所 发 现 的 问题 。” 我 回答 道 :“ 你 能 告诉 我 发 
生 了 什么 吗 ? ” 

“我 向 数据 库 发 起 了 一 个 查询 请 求 ,可 是 什么 都 设 返 回 。”Davis 先生 很 尖 刻 地 说 :“ 但 我 确信 
数据 库 里 有 数据 ， 我 用 一 个 测试 脚本 验证 过 。 

“你 的 查询 有 问题 吗 ? ”我 问 道 :“API 返 回 任何 错误 信息 了 吗 ? “ 

Davis 回应 道 :“ 为 什么 我 要 关心 API 函数 的 返回 值 ? 这 个 函数 就 应 该 执行 我 的 SQL 查询 。 
如 果 它 返回 错误 ， 就 说 明 你 的 产品 有 Bug。 如 果 你 的 产品 没有 Bug， 就 不 会 返回 错误 。 我 的 工作 
不 是 解决 你 的 Bug。” 

我 目 盯 口 呆 ， 但 我 必须 让 事实 说 话 才 能 说 服 他 。“ 好 吧 ， 我 们 来 测试 一 下 。 将 你 的 代码 中 的 
SQL 查询 语句 复制 粘贴 到 查询 工具 中 ， 然 后 执行 一 下 。 返 回 什 么 ? ”我 等 待 他 回答 。 

“在 SELECT 附近 有 语法 错误 。” 他 停顿 了 一 下 ， 然 后 说 :“ 你 可 以 结束 这 个 问题 了 。” 然 后 他 
直接 挂 挥 了 电话 。 

Davis 先生 是 一 家 航空 管制 公司 的 开发 人 员 ， 编 写 一 些 软 件 来 记录 国际 航班 的 飞行 数据 。 我 
们 每 周 都 要 接 到 几 个 他 的 电话 。 
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23.1 目标 : 写 更 少 的 代码 


每 个 人 部 想 写 出 优雅 的 代码 。 也 就 是 说 ,我 们 想 要 用 更 少 的 代码 来 做 更 酷 的 事情 。 同 时 ,我 
们 所 做 的 事情 越 栈 ,我 们 所 要 写 的 代码 就 越 少 ， 也 越 优雅 。 但 如 末 我 们 不 能 让 工作 变 得 更 酶 ,至 
少 我 们 还 有 足够 的 理由 来 改进 代码 : 用 更 少 的 代码 来 提高 代码 的 优雅 程度 。 


这 仅仅 只 是 表面 上 的 理由 ， 还 有 很 多 别 的 更 靠 谱 的 写 出 清晰 代码 的 理由 。 


我 们 可 以 更 快 地 写 完 一 个 程序 的 代码 。 
D 我 们 有 更 少 的 代码 需要 测试 、 写 文档 或 审查 。 
D 更 少 的 代码 意味 着 更 少 的 Bug。 


因此 对 于 一 个 程序 员 来 说 , 删除 任何 他 们 能 删除 的 代码 征 他 们 的 本 能 , 尤其 是 那些 不 能 让 工 
作 看 起 来 更 酷 的 代码 。 


23.2 反 模 式 : 无 米 之 炊 


非 包 勿 视 ” 对 于 开发 人 员 来 说 通 负 有 两 种 形式 : 第 一 ， 忽 略 数据 库 API 的 返回 值 ， 第 二 ， 
和 程序 代码 混在 一 起 阅读 那些 分 散 的 SQL 语 名 片段。 在 这 两 种 情况 下 ， 开 发 人 员 都 会 错过 那些 
对 他 们 修复 错误 非常 有 帮助 的 信息 。 


4 全 《| MS a 
23.2.1 没有 诊断 的 诊断 
See-No-Evil/anti/no-check.php 


<?php 
OO  $pdo = new PDO("mysql:dbname=test;host=db.example.com", 
"dbuser", "dbpassword"); 
$sql = "SELECT bug_id, summary, date_ reported FROM Bugs 
WHERE assigned to = ? AND status = ?"; 
@ $stmt = $dbh->prepare($sql1); 
@ $stmt->execute(array(1, "OPEN")):; 
@ $bug = $stmt->fetch() ; 


以 上 的 代码 非 第 简洁 , 但 代码 中 有 儿 处 函数 返回 的 状态 值 可 能 会 引起 问题 , 但 如 果 你 忽略 了 
返回 值 ， 就 永远 不 会 知道 怎么 回 事 。 

数据 库 API 最 有 可 能 返回 的 错误 就 是 在 你 建立 和 数据 库 之 同 的 链接 的 时 候 ， 比 如 在 代码 全 
处 。 你 可 能 不 小 心 打 错 了 数据 库 的 名 字 、 服 务 器 的 地 址 、 用 户 名 密码 , 或 者 数据 库 服 务 本 身 挂 了 。 
在 实例 化 一 个 PDO 链接 时 ， 会 殷 出 一 个 异 肖 ， 可 能 会 直接 终止 这 个 郊 例 脚本 的 执行 。 

代码 @ 处 调用 的 prepareQ 〇 函数 ， 可 能 会 由 于 打字 错误 、 不 匹配 的 括号 或 者 拼 错 了 列 名 导致 
的 语法 错误 而 返回 false。 代 码 合 处 ，$stmt 对 象 的 成 员 国 数 execute 〇 会 产生 一 个 致命 错误 ， 
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因为 false 不 是 一 个 合法 的 对 象 。 

PHP Fatal error: Call to a member function execute() on a non-object 

图 数 executeQ 〇 也 会 失败 。 比 如 ， 如 果 这 条 查询 语句 违反 了 某 一 个 约束 ， 或 者 超出 了 访问 权 
限 设 是， 这 个 函数 也 会 返回 false。 

在 代码 人 @ 处 ， 对 函数 fetch GO 的 调用 ， 在 有 任何 错误 产生 时 ， 都 会 返回 false， 比 如 无 法 链 
接 到 RDBMS 。 


像 Davis 先生 这 样 的 程序 员 并 不 少见 。 他 们 可 能 会 觉得 对 返回 值 进行 检查 或 者 对 异常 进行 处 
理 对 于 他 们 的 代码 来 说 没有 任何 意义 ,因为 他 们 假设 这 些 可 能 出 错 的 情况 是 不 可 能 发 生 的 。 同 时 ， 
这 些 额外 的 代码 都 是 重复 的 ， 并 且 让 程序 看 起 来 很 卫 陋 ， 而 且 难 以 阅读 。 它 们 的 确 一 点 也 不 酷 。 

但 用 户 看 不 见 代码 ,他 们 只 能 看 见 输出 。 当 一 个 致命 错误 没有 被 处 理 时 ， 用 户 就 只 能 看 到 一 
个 白 屏 (如 图 23-1) ， 或 者 是 一 个 不 完整 的 异常 信息 。 当 发 生 这 种 情况 时 ， 程 序 代码 简短 和 清晰 
对 用 户 来 说 ， 一 点 安慰 作用 都 没有 。 














尔 的 用 户 会 看 这 个 全 
白 的 界面 ,然后 你 就 会 
接 到 电话 








图 23-1 PHP 执行 中 的 一 个 致命 错误 ， 导 致 白 屏 


23.2.2 字里行间 


另 一 个 常见 的 导致 “非礼 勿 视 ” 这 个 反 模式 的 坏 习 惯 是 ， 采 着 创建 SQL 查询 字符 串 的 代码 
调试 。 这 么 做 对 于 调试 来 说 比较 困难 , 因为 用 程序 逻辑 、 申 连接 和 应 用 变量 的 额外 内 容 建 立 之 后 ， 
很 难 想象 出 最 终 拼 出 来 的 SQL 查询 语句 到 底 是 什么 。 这 么 调试 代码 就 如 同 不 看 盒子 上 的 图 片 直 
接 开始 玩 拼图 一 样 。 

举 个 简单 的 例子 ， 让 我 们 看 一 个 我 经 稍 听 程序 员 问 起 的 问题 。 下 面 的 这 段 代 码 在 断定 用 户 查 
询 一 个 特定 的 Bug 而 不 是 一 个 Bug 集合 后 ， 会 将 WHERE 子 句 连接 到 这 个 查询 语句 的 后 面 ， 从 而 
为 其 加 上 了 条 件 碍 询 的 逻辑 。 
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See-No-Evil/anti/white-space.php 


<?php 

$sql = "SELECT * FROM Bugs"; 

if ($bug id) { 

$sql .= "WHERE bug_id = " . intval($bug_1d); 

} 

$stmt = $pdo->prepare($sql); 

为 什么 这 个 人 简单 的 查询 会 返回 错误 ?如 果 你 看 了 连接 后 的 $sql 变量 里 的 值 ， 真 相 就 会 浮 出 
水 面 : 


See-No-Evil/anti/white-space.sql 


SELECT * FROM BugsWHERE bug_ 1d = 1234 


在 Bugs 和 WHERE 之 间 没 有 空格 ,造成 了 查询 语句 的 语法 错误 。 这 条 语句 的 意思 变 成 了 查询 
一 张 叫做 BugsWHERE 的 表 , 但 随后 又 跟着 一 品 有 语法 错误 的 表达 式 。 这 上 段 程序 代码 在 连接 两 个 字 
符 串 时 没有 加 空格 。 


开发 人 员 浪费 了 无 数 的 时 间 和 精力 来 调试 这 样 简单 的 问题 。 通 常 只 要 看 一 眼 创建 完 的 SQL 
语句 就 能 找到 问题 的 症结 ， 但 开发 人 员 更 喜欢 分 析 创建 SQL 语句 的 代码 罗 辑 。 


23.3 ”如 何 识别 反 模 式 


你 可 能 认为 ， 人 工 定位 这 些 遗 漏 的 错误 处 理 代 码 很 困难 ， 你 不 见得 需要 这 么 做 。 很 多 现代 的 
IDE 都 会 在 检测 到 没有 处 理 返 回 值 或 者 名 上 略 了 一 个 需要 检测 的 异常 时 ， 突 出 显示 相应 的 代码 。 
同时 ， 你 还 可 以 根据 下 面 的 这 些 质 述 ， 推 凑 出 有 人 使 用 了 “ 非 也 勿 视 ”这 个 反 模式 。 
OD“ 我 的 程序 在 我 执行 查询 之 后 就 朋 沉 了。 
通 营 程序 朋 涡 是 因为 查询 失败 ， 然 后 又 试图 以 一 种 非法 的 方式 使 用 返回 的 结案， 诸如 调 
用 一 个 非 对 象 的 方法 ,或 者 引用 一 个 空 指 针 。 

D “你 能 帮 我 找 一 下 我 的 SQL 查询 中 的 错误 吗 ? 这 是 我 的 代码 ……* 
自 完 ， 看 一 下 SQL 语句， 而 不 古 生 成 它 的 代码 。 

D“ 我 不 会 让 蚀 误 处 理 弄 乱 了 我 的 代码 结构 有 的 。 

一 些 计算 机 科学 家 推测 在 一 个 稳固 的 程序 中 , 至少 有 50% 的 代码 是 用 来 进行 错误 处 理 的 。 
这 看 上 去 似乎 很 多 ， 但 想 想 在 一 个 错误 处 理 中 所 要 包含 的 所 有 步 双 检查、 分 类 、 报 告 
以 及 补救 。 对 于 所 有 的 程序 来 说 ， 实 现 错误 处 理 都 是 很 重要 的 。 





OO 需要 检测 的 异常 指 的 是 在 函数 签名 中 附带 的 异常 定义 ， 因 此 使 用 者 可 以 知道 这 个 国 数 有 可 能 会 返回 特定 类 型 
的 异常。 
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23.4 合理 使 用 反 模 式 

当 你 真 的 不 需要 为 错误 人 负 贡 的 时 候 ， 的 确 可 以 忽略 错误 处 理 。 比 如 ，close 〇 函数 会 关闭 一 
个 到 数据 库 的 链接 ， 然 后 返回 一 个 状态 。 但 如 本 你 的 程序 已 经 运行 完成 并 准备 退出 了 , 那 所 有 的 
链接 资源 无 论 如 何 都 会 被 清空 的 ， 也 就 不 需要 关心 close() 的 返回 值 了 。 

在 和 面向 对 象 的 语言 中 ,异常 允许 你 跟踪 一 个 错误 而 不 用 处 理 它 。 任 何 调 用 你 所 提供 的 接口 的 
代码 , 才 古 需要 为 这 个 异 弟 人 负 贡 的 代码 。 因 此 , 你 可 以 直接 将 一 个 异常 抛 出 并 返回 到 调用 栈 的 上 
一 层 。 


23.5 解决 方案 : 优雅 地 从 错误 中 恢复 


所 有 喜欢 跳舞 的 人 都 知道 ， 跳 错 舞 步 是 不 可 避免 的 。 优 雅 的 秘诀 就 是 弄 明白 怎么 挽回 。 给 目 
己 一 个 了 解 错 误 产 生 原 因 的 机 会 ， 然 后 就 可 以 快速 啊 应 ， 在 任何 人 注意 到 你 出 丑 之 前 ， 神 不 知 鬼 
不 党 地 回 到 应 有 的 玉 委 上 。 


23.5.1 保持 市 奏 


检查 数据 库 API 调用 的 返回 状态 和 异常 , 是 确保 你 不 会 跳 错 舞步 的 最 佳 方 式 。 如 下 的 代码 对 
每 一 个 会 产生 错误 的 调用 都 做 了 检查 : 


See-No-Evil/soln/check.php 








<?php 
try { 
$pdo = new PDO("mysql:dbname=test;host=localhost",， 
"dbuser”", "dbpassword"); 
0 } catch (PDOException $e) { 
report_error($e->getMessage()); 
return; 


} 


$sql = "SELECT bug_id, summary, date reported FROM Bugs 
WHERE assigned to = ? AND status = ?"; 


@ if (($stmt = $pdo->prepare($sql1)) === false) { 
$error = $pdo->errorInfo(); 
report error($error[2]); 
return; 


上 
@ 1if ($stmt->execute(array(1, "OPEN")) === false) { 


$error = $stmt->errorInfo(); 
report error($error[2]); 
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return; 
} 
@ 1if (($bug = $stmt->fetch()) === false) { 
$error = $stmt->errorInfo(); 
report error($error[2]); 
return; 
了 


代码 @ 处 在 数据 库 链 接 失 败 时 ,捕获 了 其 抛 出 的 异常 。 当 有 问题 的 时 候 ， 其 他 的 函数 就 会 返 
回 false。 


在 检查 了 代码 允 @、 合 和 人 @ 之 后 ， 你 可 以 从 数据 库 链接 对 象 或 者 查询 语句 对 象 那 里 获得 更 多 
的 错误 信息 。 


23.5.2 ”回溯 你 的 脚步 


使 用 实际 的 SQL 查询 语句 来 进行 调试 也 古 很 重要 的 ， 不 能 仅仅 只 是 分 析 产 生 SQL 查询 语句 
的 代码 。 很 多 简单 的 错误 ， 诸 如 拼写 错误 、 引 号 、 括 握 不 全 都 是 非常 明显 的 ， 即 使 它们 在 程序 代 
码 中 让 人 和 费解、 困惑。 


D 使 用 一 个 变量 来 记录 生成 的 SQL 查询 语句 ， 而 不 古 在 调用 API 方法 ， 传 递 参数 的 时 候 临 
时 生成 。 这 样 做 让 你 有 机 会 在 使 用 生成 的 SQL 语句 之 前 对 其 进行 检查 。 
D 选择 一 个 不 是 程序 输出 的 地 方 输出 SQL 语句 ， 比 如 日 志文 件 、IDE 调试 控制 窗口 ， 或 者 
能 显示 调试 输出 的 训 览 右 扩 展 。 
D 别 将 SQL 语句 当做 HTML 注释 一 起 输出 在 页 面 中 。 因 为 任何 人 都 能 看 页 面 源码 。 阅 读 这 
些 SQL 语句 会 让 黑客 了 解 很 多 关于 数据 库 染 构 的 信息 。 
使 用 一 个 对 象 关系 映射 (ORM) 框架 来 透明 地 构建 和 执行 SQL 查询 会 使 得 调试 更 复杂 。 如 
末 你 不 能 获得 SQL 查询 的 上 下 文 ， 又 怎么 观察 并 且 调 试问 题 呢 ?有 些 ORM 通过 将 生成 的 SQL 
语句 写 入 日 志 来 解决 这 一 矛盾 。 














最 后 一 上 感 ， 大 多 数 数据 库 都 提供 了 它们 自己 的 日 志 机 制 , 日 志 古 记录 在 数据 库 服务 强 问 而 非 
监控 这 些 请 求 的 


程序 客户 端的 。 如 采 你 不 能 在 程序 中 记录 SQL 请 求 ， 仍 可 以 在 数据 库 服务 大 端 
行情 况 。 


这 


发 现 并 解决 代码 中 的 问题 已 经 很 困难 了 ， 就 别 再 育 目 地 干 了 。 


Q@ Firebug (http://getfirebug.com) 就 是 个 不 错 的 扩展 。 
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人 们 讨厌 改变 。 他 们 总 是 会 说 : “我 们 一 向 如 此 。 而 我 尝试 改变 这 一 切 , 这 就 是 为 
什么 我 墙 上 的 钟 是 逆 时 针 的 。 
葛 丽 丝 。 霍 普 少 将 


以 前 的 一 份 工 作 曾 给 我 上 了 重要 的 一 语 一 一 关于 使 用 软件 工程 最 佳 实践 的 重要 性 。 那 是 在 一 
次 悲惨 的 事故 之 后 ， 我 开始 接管 一 个 重要 的 数据 库 程序 。 

我 受聘 于 Hewlett-Packard 公司 , 负 贡 开发 和 维护 一 个 基于 UNIX 的 .使 用 C 和 HPALLBASE/ 
SQL 编写 的 程序 。 面 试 我 的 经 理 和 员工 悲伤 地 告诉 我 ， 他 们 之 前 写 这 个 程序 的 开发 人 员 在 一 起 交通 
事故 中 不 幸 去 世 了 。 他 们 部 门 中 的 其 他 人 都 不 知道 如 何 使 用 UNIX,， 也 不 知道 这 个 程序 的 任何 细节 。 

我 接手 之 后 ,发现 之 前 的 这 个 开发 人 员 从 来 没有 写 过 任何 文档 或 者 测试 程序 ， 也 没有 使 用 任 
何 源 代码 版 本 控制 程序 ， 其 至 连 代 码 注 释 都 没有 。 所 有 的 源 代 码 都 放 在 同一 个 目录 下 ,包括 线 上 
运行 中 系统 的 代码 和 开发 阶段 的 代码 ， 以 及 那些 不 再 使 用 的 代码 。 

这 个 项 目 在 技术 方面 背负 重重 债务 一 一 使 用 捷径 而 不 是 最 佳 实践 的 后 果 。 技术 债务 ”(technical 
debt) 会 不 断 给 项 目 带 来 风险 和 额外 的 工作 ， 直 到 你 重 构 、 测 试 并 为 代码 编写 文档 。 

我 总 共 花 了 六 个 月 的 时 间 来 重新 整理 这 些 代 码 , 并 补 全 相关 文档 ， 因 为 我 不 得 不 花 很 多 时 间 
和 精力 为 它 的 用 户 和 后 续 开 发 做 技术 支持 。 然 而 ， 就 程序 本 身 而 言 ， 其 实 真 的 非常 普通 。 

很 显然 , 我 没有 办 法 让 我 的 前 任 来 帮忙 加 快 项 目 进 度 。 这 个 项 目的 经 验证 明了 让 技术 债务 失 
控 所 造成 的 影响 有 多 严重 。 


24.1 目标 : 采用 最 佳 实践 
专业 程序 员 总 是 努力 地 在 其 项 目 中 使 用 好 的 软件 工程 习惯 ， 比 如 下 面 几 种 。 








@O Ward Cunningham 在 他 关于 OOPSLA 1992 的 报告 中 创造 了 这 个 单词 。 
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D 将 产 代 码 使 用 版 本 控制 工具 管理 起 来 ， 比 如 SVN 或 Git。 

D 为 程序 编写 自动 化 单元 测试 脚本 或 者 功能 测试 脚本 。 

D 编写 文档 、 规 格 说 明 以 及 代码 注释 来 记录 程序 的 需求 和 实现 机 制 |。 

使 用 最 佳 实践 来 开发 软件 所 花费 的 时 间 是 绝对 有 益 的 , 因为 这 么 做 能 减少 很 多 不 必要 或 者 重 
复 的 工作 。 大 多 数 资 深 开 发 人 员 都 非常 清楚 地 知道 ， 如 果 为 了 方便 起 见 而 抛 开 这 些 实践 方法 ,项 
目 失 败 就 是 必然 的 。 


24.2 反 模 式 : 将 SQL 视 为 二 等 公民 


即使 在 接受 并 应 用 最 佳 实践 的 开发 人 员 之 中 , 也 有 一 种 思想 趋向 认为 数据 库 代码 是 排除 在 这 
些 实践 方法 之 外 的 。 我 将 这 个 反 模式 命名 为 “外 交 升 免 权 >”， 因 为 它 假设 程序 开发 的 规则 并 不 需 
要 应 用 到 数据 库 开发 中 去 。 


为 什么 开发 人 员 会 做 出 这 样 的 决定 ? 下 面 有 儿 个 可 能 的 原因 。 


D 在 有 些 公 司 里 ， 软 件 工程 师 和 数据 库 管 理 员 的 角色 是 分 开 的 ，DBA 通常 同时 和 好 几 组 程 
序 员 一 起 工作 ， 因 此 可 以 说 ，DBA 对 于 任何 一 个 项 目 组 都 不 是 全 职 的 。DBA 被 训练 成 一 
个 参观 者 ， 并 且 不 用 和 软件 工程 师 负 同样 的 贡 任 。 

口 使 用 在 关系 型 数据 库 中 的 SQL 语言 和 传统 编程 语言 有 很 大 不 同 。 即 使 在 程序 中 调用 SQL 
语句 的 代码 ， 它 也 看 上 去 和 原 有 代码 在 风格 上 格格 不 入 。 

D 高 级 IDE 工具 在 程序 编程 语言 中 非常 流行 ， 其 中 编辑 、 测 试 和 版 本 控制 的 功能 非常 便捷 
易学 。 但 是 数据 库 开 发 的 工具 就 不 这 么 高 级 了 ， 或 者 使 用 范围 不 广 。 开 发 人 员 可 以 很 简 
单 地 使 用 最 佳 实践 来 指导 编码 ， 但 将 这 些 应 用 到 SQL 上 相 比 而 言 就 显得 很 笨拙 了 。 开 发 
人 员 趋 向 于 ， 宁 可 找 点 别 的 事情 来 做 ， 也 不 会 如 此 尝试 。 

D 在 技术 团队 ， 对 于 数据 库 的 通常 认识 和 做 法 就 是 全 由 一 个 人 来 负责 一 一 DBA。 因 为 DBA 
是 唯一 有 权限 访问 数据 库 服 务 器 的 人 ， 他 通常 被 看 做 是 一 个 活 的 资料 库 和 版 本 控制 系统 。 


数据 库 是 一 个 程序 的 基础 ， 和 软件 质量 县 县 相关 。 你 知道 怎么 写 出 高 质量 的 代码 , 但 可 能 会 
将 程序 构建 在 一 个 无 法 解决 需求 或 者 没 人 能 看 懂 的 数据 库 上 。 这 样 做 的 风险 就 是 你 在 开发 一 个 
不 得 不 最终 放 弃 的 程序 。 


24.3 ”如 何 识别 反 模 式 


你 可 能 认为 要 证 明 疫 做 什么 很 难 ， 但 并 非 每 次 都 征 如 此 。 下 面 就 是 一 些 能 说 明 问 题 的 证 据 。 


D “我 们 正在 适应 一 个 新 的 开发 流程 : 一 个 轻 量 级 的 版 本 。 
这 里 的 “ 轻 量 级 ”通常 意味 着 项 目 组 想 要 跳 过 一 些 开发 流程 中 的 环 三 。 其 中 一 些 可 能 是 
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合理 的 ， 但 也 可 以 理解 为 这 和 是 不 遵循 重要 的 最 佳 实践 的 借口 。 

口 “新 的 版 本 控制 系统 的 训练 不 需要 DBA 员工 的 参加 ， 因 为 他 们 根本 用 不 到 。” 
排除 一 些 技术 团队 的 成 员 参 与 培训 (或 者 可 能 都 没有 访问 权限 ) 确保 了 他 们 不 会 使 用 到 
这 些 工具 。 

DD“ 我 要 怎么 跟 中 数据 库 中 的 表 和 列 的 使 用 情况 ?我 们 不 清楚 有 些 条 目的 作用 ,还 有 就 古 如 
本 它们 是 抓 立 的 ， 我 们 就 考虑 删除 它们 了 。 
你 没有 使 用 为 数据 库 结 构 编 写 的 项 目 文档 ， 或 者 这 份 文档 过 期 了， 或 者 无 法 访问 ， 或 者 
根本 束 不 存在 。 如 采 你 不 知道 有 些 表 和 列 存 在 的 目的 ， 也 许 它 们 对 别人 来 说 非 党 重要， 
你 不 能 随意 删除 它们 。 

D 口 有 没有 什么 工具 能 比较 两 个 数据 库 结 构 ， 并 给 出 两 者 的 不 同 之 处 ， 然 后 生成 一 个 将 其 中 
一 个 结构 修改 成 另 一 个 的 脚本 ? 
如 末 你 没有 遵循 数据 库 结 构 变 更 部 署 的 流程 ， 它 们 就 可 能 变 得 不 同步 ， 要 将 两 个 数据 库 
的 结构 改 成 一 致 症 一 项 很 复杂 的 工程 。 


24.4 ”合理 使 用 反 模 式 


对 于 要 多 次 使 用 的 代码 ,我 都 会 编写 文档 和 进行 测试 ， 然后 将 代码 秆 于 版 本 控制 之 中 ， 同 时 
还 有 一 些 别 的 好 习惯 来 处 理 这 些 代码 。 但 我 也 会 写 一 些 即 兴 的 代码 ,比如 对 一 个 API 国 数 写 的 一 
次 性 测试 代码 以 提醒 我 如 何 使 用 这 个 API， 或 者 回答 一 些 用 户 提 问 的 代码 。 


判断 代码 是 否 真 是 临 时 使 用 的 好 方法 ,就 是 在 你 使 用 完 之 后 立刻 删 挤 它们 。 如 朱 你 不 能 这 么 
做 ， 那 这 段 代 码 可 能 就 值得 保留 下 来 。 同 时 ,这 也 就 意味 着 这 段 代 码 值得 存 进 版 本 控制 系统 ， 并 
且 至 少 需要 写 一 些 和 尚明 的 注释 ， 说 明 这 段 代 码 的 作用 以 及 使 用 方法 。 


24.5 解决 方案 : 建立 一 个 质量 至 上 的 文化 

质量 对 于 大 多 数 程序 员 来 说 就 是 测试 , 但 这 仅 仅 是 质量 控制 一 一 整个 流程 中 的 一 部 分 。 软件 
工程 的 质量 保证 流程 包含 如 下 的 三 步 。 

(1) 清晰 地 定义 项 目 需求 ， 并 且 写 成 文档 。 

(2) 设计 并 实现 一 个 解决 方案 来 满足 需求 。 

(3) 验证 并 测试 解决 方案 符合 需求 。 

你 需要 完成 这 三 步 操作 才能 确保 正确 的 质量 保证 , 虽然 在 某 些 软 件 开发 方法 中 , 不 需要 严格 
按照 上 面 的 这 个 顺序 来 执行 。 


通过 遵循 编写 文档 、 源 码 管 理 和 测试 的 最 佳 实践 ， 你 也 可 以 在 数据 库 开 发 中 保证 质量 。 
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24.5.1 陈列 A: 编写 文档 


世上 没有 能 够 代 检 文档 的 代码 。 尽管 一 个 资深 的 开发 人 员 能 够 通过 仔细 的 分 析 以 及 任 便 目 己 
丰富 的 经 验 来 解读 一 段 代码 ， 但 依旧 是 非 第 消耗 体力 的 "。 同 时 ， 代 码 也 不 能 告诉 你 还 有 哪些 问 
题 没 解决 。 

你 应 该 将 数据 库 的 需求 和 实现 也 写成 文档 , 就 像 对 竺 程序 代码 那样 。 无 论 你 是 数据 库 的 原始 
设计 者 ， 还 古 从 别人 那里 接手 的 数据 库 ， 尽 可 能 地 使 用 下 面 的 清单 来 检查 文档 的 完整 性 。 


实体 关系 图 。 整 份 数据 库 文档 中 最 重要 的 部 分 ， 就 是 一 张 描述 了 数据 库 中 所 有 表 及 表 之 间 关 系 的 
ER 图 。 本 书 有 几 草 中 使 用 了 简单 的 ER 图 。 更 复杂 一 点 的 ER 图 包 伟 了 列 、 主 键 、 索 引 和 其 
他 数据 库 对 象 。 


不 少 绘图 软件 包含 了 ER 图 的 标记 。 还 有 些 工 具 能 够 通过 SQL 脚本 或 者 运行 中 的 数据 库 
直接 通过 反问 工程 得 到 ER 图 。 


当 数 据 库 过 于 复杂 ， 表 特别 多 时 ， 要 在 一 张 ER 图 中 将 所 有 条 目 都 表示 出 来 会 有 点 不 切 
实际 。 在 这 种 情况 下 ， 你 应 该 将 其 拆 分 到 多 张 图 中 。 通 沼 你 可 以 使 用 “ 子 组 ”这 个 符号 ， 这 
样 一 来 ，ER 图 中 即 包含 了 足够 的 阅读 信息 ， 也 不 至 于 让 人 看 得 举 头 转 问 。 


表 、 列 以 及 视图 。 你 仍 需 要 为 数据 库 编 写 文 档 ， 因 为 ER 图 不 是 描述 每 张 表 、 列 及 其 他 对 角 的 目 
的 和 使 用 方法 的 正确 形式 。 


对 于 表 来 说 ,需要 搬 述 一 张 表 代表 了 哪 种 实体 类 型 .比如 Bugs、Products 和 Accounts 
很 容易 就 能 根据 表 名 看 出 它们 的 意思 ,但 对 于 BugStatus 这 种 查询 表 , 或 者 BugsProducts 
这 种 交叉 表 ， 又 或 者 Comments 这 种 依赖 表 来 说 ， 很 难 从 表 名 上 看 出 它们 的 作用 。 同 时 ， 
还 需要 说 明 每 张 表 预期 存储 多 少 行 数据 ? 你 希望 如 何 对 这 张 表 进行 查询 ? 表 中 有 哪些 索 
引 ? 


每 个 列 都 有 一 个 列 名 和 对 应 的 数据 类 型 ， 但 这 些 信息 并 不 能 说 清楚 这 个 列 所 代表 的 含 
义 。 比 如 说 ， 哪 些 值 对 于 这 一 列 是 有 意义 的 《只 有 很 少 的 情况 下 ， 取 值 泥 围 是 对 应 数据 类 型 
的 所 有 可 选 值 的 全 集 ) ? 这 个 列 能 否 接受 NULL, 为 什么 ?有 没有 和 针对 这 一 列 的 唯一 性 约束 ? 
如 采 有 ， 为 什么 要 有 ? 
视图 存储 了 对 于 一 张 或 多 张 表 的 第 用 查询 结 来 ,为 什么 需要 创建 这 样 一 个 视图 ?哪个 产 
品 或 者 用 户 需 要 使 用 这 个 视图 ?这 个 视图 是 不 是 试图 提取 表 之 间 的 复杂 关系 ?这 个 视图 会 
` 会 让 没有 权限 的 用 户 查 询 一 张 需要 授权 的 表 的 部 分 数据 ?这 个 视图 是 否 可 以 更 新 ? 

















@ 如 末代 码 是 任何 人 都 能 读 的 ， 那 为 什么 还 叫 代码 呢 ? 
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关系 。3 引 | 用 完整 性 约束 表示 了 表 和 表 之 间 的 依赖 关系 , 但 可 能 并 没有 完整 表达 出 你 所 设计 的 约束 
模型 。 比 如 ，Bugs .reported_by 是 非 空 的 , 但 Bugs.assigned_to 是 可 空 的 。 这 是 不 是 意 
味 着 一 个 Bug 可 以 在 指派 给 任何 人 之 前 就 被 修复 ?如果 不是 ,一 个 Bug 的 指派 应 该 要 遵循 
什么 样 的 规则 ? 


在 攻 些 情况 下 ， 可 能 存在 一 些 隐 式 关 系 ， 但 没有 任何 相关 的 约束 。 如 琳 没 有 文档 ， 别 人 
很 难 知 着 存在 这 些 天 系 。 
触发 器 。 数 据 验 证 、 数 据 转换 以 及 记录 数据 库 变 更 ， 都 是 使 用 触发 奉 的 场景 。 你 在 触发 合 中 实现 
了 怎样 的 业务 逻辑 ? 这 些 都 征 需要 记录 在 文档 中 的 。 


存储 过 程 。 要 像 API 那样 为 存储 过 程 编写 文档 。 这 个 存储 过 程 要 解决 什么 问题 ?这 个 存储 过 程 是 
合 会 改变 数据 ?输入 输出 参数 的 类 型 和 意义 是 什么 ”是否 使 用 这 个 存储 过 程 来 梦 换 一 种 查 
询 请 求 , 就 能 够 解决 某 个 性 能 瓶颈 ? 使 用 这 个 存储 过 程 是 否 会 让 疫 有 权限 的 用 户 访问 到 需要 
权限 的 表 ? 

SQL 安全 。 为 应 用 程序 指定 了 哪个 数据 库 用 户 账 号 ?每 个 用 户 都 有 哪些 访问 权限 ? 你 提供 了 哪 
些 SQL 任务 ， 哪 些 用 户 可 以 使 用 这 些 任 务 ? 是 否 有 些 用 户 是 为 了 特殊 的 任务 所 定义 的 ， 比 
如 备份 或 报表 ? 使 用 哪 种 系统 安全 级 别 规定 ,比如 客户 端 必须 通过 SSL 和 RDBMS 服务 絮 端 
链接 吗 ? 使 用 何 种 机 制 检 测 和 屏蔽 非法 的 认证 请 求 ， 比 如 暴力 破解 密码 ?有 没有 针对 SQL 
注入 做 过 一 次 完整 的 代码 审查 ? 


数据 库 基础 设施 :这些 信息 对 运 维和 DBA 的 同事 来 说 是 最 重要 的 ， 但 开发 人 员 最 好 也 对 此 有 些 
了 解 。 使 用 哪个 厂商 的 哪个 版 本 的 RDBMS 服务 ? 数据 库 服 务 右 的 主机 名 是 什么 ? 种 否 使 用 
了 多 台数 据 库 服务 莫 、 元 余 备 份 、 服 务 吾 集群、 访问 代理 等 ? 网 络 结构 是 什么 样 的 ? 数据库 
服务 器 使 用 的 是 什么 端口 ? 客户 端 程序 连接 的 时 候 有 什么 特殊 的 选项 ?数据 库 的 用 户 密码 
征 什 么 ? 数据 库 的 备份 方案 是 什么 ? 


ORM。 你 的 项 目 可 能 将 一 部 分 应 由 数据 库 处 理 的 逻辑 写 在 了 程序 代码 中 ， 作 为 基于 ORM 类 的 
层 的 一 部 分 。 哪 些 业 务 逻 辑 是 以 这 样 的 方式 实现 的 ?数据 验证 、 数 据 转 换 、 日 志 、 绥 存 还 
征 配 置 ? 

开发 人 员 不 喜欢 维护 工程 文档 。 它 们 既 难 以 编写 ， 也 很 难保 持 实时 更 新 ， 而 且 当 你 写 了 
很 多 却 少 有 人 读 的 时 候 ， 会 感到 很 失落 。 但 即使 症 经 难 丰 军 或 者 极限 编程 的 程序 员 也 知道 ， 
他 们 可 以 不 为 程序 的 其 他 部 分 写 文 档 ， 但 一 定 要 编写 数据 库 部 分 的 文档 。 














Q@ 比如 ，Jeff Atwood 和 Joel Spolsky 认为 ， 除了 数据 库 部 分 的 文档 ， 其 他 代码 的 文档 基本 没有 意义 。 可 以 在 
StackOverflow 上 看 到 他 们 的 讨论 http:/blog.stackoverflow.com/2010/01/podcast-80/。 
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结构 演化 工具 


版 本 管理 工具 管理 了 代码 ,但 并 没有 管理 数据 库 . Ruby on Rails 提供 了 一 种 技术 叫做 “ 迁 
移 "， 用 来 将 版 本 控制 应 用 到 数据 库 实例 的 升级 管理 上 。 我 们 可 以 简单 地 来 看 一 个 升级 的 例 
人 

可 以 基于 Rails 的 抽象 类 来 编写 一 个 脚本 更 新 数据 库 ， 需 写 一 个 能 一 步 完成 数据 库 升级 
的 函数 ， 同 时 也 需要 写 一 个 降级 函数 ， 能 够 反 转 升级 函数 的 操作 。 


class AddHoursToBugs < ActiveRecord: :Migration 
def self.up 
add_column :bugs, :hours, :decimal 
end 


def self.down 
remove_column :bugs, :hours 
end 
end 


Rails“ 迁 移 ” 工 具 会 自动 地 创建 一 张 表 来 记录 当前 数据 库 实例 的 多 个 版 本 。Rails2.1 引 
入 的 修改 让 该 系统 更 加 的 灵活 ， 其 随后 的 版 本 可 能 还 会 改变 “迁移 ”的 工作 方式 。 

不 断 为 数据 库 的 每 个 结构 变化 创建 新 的 迁移 脚本 会 逐渐 积累 一 系列 的 脚本 , 每 一 个 脚本 
部 能 对 数据 库 进 行 一 步 升 级 或 者 降级 操作 。 如 果 你 需要 将 数据 库 版 本 改 为 5， 只 需要 在 运行 
迁移 工具 的 时 候 指 定 参 数 。 

$ rake db:migrate VERSION=5 

可 以 参考 “Rails 敏捷 网 站 开发 ， 第 三 版 [RTH08]” 或 者 访问 http://guides.rubyonrails.org/ 
migrations.html 来 对 “迁移 ”工具 进行 更 深入 的 学 习 。 

大 多 数 其 他 的 网 站 开发 框架 ， 包 括 PHP 的 Doctrine、Python 的 Django 以 及 微软 的 
ASPNET， 都 支持 类 似 于 Rails 的 “迁移 ”这 样 的 特性 ， 可 能 集成 在 框架 中 ， 或 者 以 相关 项 
目的 形式 提供 。 

“迁移 ”使 很 多 同步 当前 数据 库 实 例 和 源码 版 本 控制 服务 中 指定 版 本 结构 的 脏 活 能 自动 
完成 。 但 它们 还 不 是 完美 的 ， 只 能 处 理 一 些 简 单 类 型 的 结构 变更 , 而 且 从 根本 上 说 ， 它 们 在 
原 有 版 本 控制 服务 之 外 又 建立 了 一 个 版 本 系统 。 


24.5.2 寻找 证 据 : 源 代码 版 本 控制 


如 琳 你 的 数据 库 服 务 融 彻底 挂 挥 了 ,要 怎么 重建 一 个 数据 库 ?” 跟 踊 数 据 库 的 一 个 复 洒 的 升级 
过 程 的 最 有 效 途 径 是 什么 ?要 怎么 回 滚 数据 库 的 变更 ? 


我 们 知道 怎么 使 用 版 本 控制 系统 来 管理 程序 代码 ,解决 软件 开发 中 相似 的 一 些 问题 。 一 个 使 
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用 版 本 控制 的 项 目 应 该 包含 在 现 有 程序 被 损坏 时 用 以 重建 、 部 署 该 项 目 所 需要 的 一 切 。 版 本 控制 
也 用 来 记录 历史 变更 和 增 量 备份 ， 使 得 你 能 够 回 滚 任意 的 修改 。 


对 于 数据 库 的 代码 ， 也 能 使 用 版 本 控制 ， 从 而 获得 和 程序 开发 相似 的 效 末 。 





Diplomatic_immunity/Databaselest.php 


<?php 
require once "PHPUnit/Framework/TestCase.php"; 


class DatabaseTest extends PHPUnit Framework TestCase 


{ 

protected $pdo; 

public function setUp(O) 

{ 
$this->pdo = new PDO("mysql:dbname=bugs”, "testuser”, ”XXXXXX”) ; 

) 

public function testTableFooExists() 

{ 
$stmt = $this->pdo->query("SELECT COUNT(%) FROM Bugs"); 
$err = $this->pdo->errorInfo(); 
$this->assertType("object", $stmt, $err[2]); 
$this->assertEquals("PDOStatement", get class($stmt)); 

} 

public function testTableFooColumnBugIdExists() 

{ 
$stmt = $this->pdo->query("SELECT COUNT(bug_id) FROM Bugs"); 
$err = $this->pdo->errorInfo(); 
$this->assertType("object", $stmt, $err[2]); 
$this->assertEquals("PDOStatement", get class($stmt)); 

} 

static public function main() 

{ 
$suite = new PHPUnit Framework TestSuite( CLASS ); 
$result = PHPUnit TextUI TestRunner::run($suite): 

} 


DatabaseTest: :main(); 


你 需要 将 和 数据 库 开发 相关 的 文件 都 提 交 到 版 本 控制 服务 中 去 ， 包 括 如 下 的 这 些 文件 。 
数据 定义 脚本 。 所 有 数据 库 都 提供 CREATE TABLE 或 别 的 定义 数据 库 对 象 来 执行 SQL 脚本 。 
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触发 器 和 存储 过 程 。 很 多 项 目 以 数据 库 函 数 的 形式 为 程序 代码 提供 支持 。 你 的 程序 可 能 离开 这 些 
国 数 根本 无 法 工作 ， 因 此 它们 也 算 做 你 的 项 目 代码 的 一 部 分 。 


初始 数据 。 检 查 表 可 能 包含 一 些 数据 ， 用 以 在 任何 用 户 输入 新 数据 之 前 初始 化 数据 库 。 你 应 该 将 
这 些 初 始 数 据 保存 起 来 , 以 备 需 要 从 项 目 源码 重新 构建 数据 库 时 使 用 。 和 初始 数据 也 叫做 种 子 
数据 。 


ER 图 及 文档 。 这 些 文件 不 古代 码 ， 但 它们 和 代码 、 数 据 库 需 求 、 实 现 机 制 以 及 和 程序 的 整合 等 
联系 密切 。 由 于 项 目的 升级 依赖 于 数据 库 和 程序 的 同时 升级 , 你 需要 将 这 些 文件 也 保持 同步 
更 新 。 需 要 确保 这 些 文件 切实 摘 述 了 当前 版 本 的 设计 。 

DBA 脚本 。 大 多 数 项 目 都 有 一 系列 的 数据 处 理 任务 ， 这 些 任务 都 是 在 程序 之 外 处 理 的 ， 包 括 导 
入 /导出 数据 、 同 步 数 据 、 生 成 报表 、 备 份 、 验 证 数据 、 测 试 等 。 有 些 可 能 征用 SQL 脚本 编 
写 的 ， 而 非 用 一 般 的 编程 语言 。 
确保 数据 库 代 码 文 件 是 和 使 用 当前 数据 库 的 程序 代码 相关 联 的 。 使 用 版 本 控制 的 部 分 好 处 就 

征 ， 当 从 服务 袁 奖 丛 出 特定 的 了 版本、 指定 的 日 期 或 者 不 同 的 里 程 碑 时 ， 所 得 到 的 文件 应 该 都 能 

党 工作 。 你 最 好 将 数据 库 代 码 和 程序 代码 放 在 同一 个 版 本 库 中 。 


24.5.3 举证: 测试 


质量 保证 的 最 后 一 步 就 是 质量 控制 一 一 验证 程序 做 了 它 应 该 做 的 。 大 多 数 专 业 的 开发 人 员 都 
很 熟悉 编写 目 动 化 测试 脚本 来 验证 程序 代码 的 行为 。 测 试 的 一 个 重要 原则 就 古 隔离 ， 即 同一 时 间 
扩 只 测试 系统 的 一 个 部 分 ， 如 末 存 在 缺陷 ， 你 可 以 尽 可 能 缩小 出 错 的 泥 围 。 

我 们 在 数据 库 测 试 中 也 借鉴 这 种 隔离 模块 测试 的 方法 , 需要 独立 于 程序 代码 对 数据 库 结构 及 
行为 进行 验证 。 

下 面 的 例子 展示 了 使 用 PHP 单元 测试 框架 写 的 一 个 单元 测试 脚本 : 

你 可 以 在 验证 数据 库 的 时 候 参 考 如 下 的 请 单 。 

表 、 列 和 视图 。 你 应 该 测试 一 下 所 希望 存在 的 表 、 视 图 是 否 真 的 在 数据 库 中 存在 。 每 次 你 使 用 新 
的 表 、 视 图 或 者 列 扩充 数据 库 时 ,增加 一 个 确认 这 些 对 象 存在 的 新 测试 任务 。 你 还 可 以 使 用 
负面 测试 ， 来 验证 一 张 表 或 者 列 在 当前 版 本 中 是 否 真 的 删除 了 。 

约束 。 这 是 男 一 个 使 用 负面 测试 的 地 方 。 可 以 执行 INSERT、UPDATE 或 者 DELETE 语句 来 验证 约 
束 是 任 有 效 ， 是 任 正 确 返回 错误 。 比 如 , 试 着 违反 非 室 、 唯 一 或 者 外 键 约束 等 。 如 霖 所 执行 























@ 参考 http://www.phpunit.de/。 确 切 地 说 ， 测 试 数据 库 的 功能 并 不 是 严格 意义 上 的 单元 测试 ， 但 还 是 可 以 使 用 这 个 
工具 来 组 织 和 使 测试 自动 化 。 
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的 语句 没有 返回 错误 ， 那 就 意味 着 对 应 的 约束 有 问题 。 你 可 以 通过 这 样 的 测试 尽早 地 找到 更 
多 的 Bug。 


触发 器 。 触 发 合 也 能 进行 强制 约束 。 触 发 君 能 处 理 级 联 效果、 转换 数据 、 记 录 变 更 等 。 你 应 该 通 
过 执行 一 个 语句 来 3 发 这 个 触发 如 测试 这 些 场 景 , 然后 再 进行 一 次 但 询 来 验证 触发 右 征 合 按 
照 你 所 期 望 的 方式 执行 了 。 

存储 过 程 。 存 储 过 程 的 测试 最 接近 传统 程序 代码 的 单元 测试 。 存 储 过 程 有 输入 参数 ， 如 条 输入 的 
参数 无 效 则 可 能 会 拟 出 错误 。 存 储 过 程 内 部 的 逻辑 可 能 会 有 多 个 分 文 。 存 储 过 程 可 能 会 返回 
单个 值 , 也 可 能 返回 一 个 查询 结 来 集 , 这 取决 于 输入 的 参数 以 及 数据 库 中 数据 的 状态 。 同 时 ， 
存储 过 程 也 可 能 会 受到 数据 库 正 在 更 新 的 副作用 影响 。 你 可 以 测试 所 有 这 些 存 储 过 程 的 特性 。 


初始 数据 。 即 使 理论 上 完全 空白 的 数据 库 也 会 需要 一 些 初始 数据 ， 比 如 检查 表 中 的 记录 。 你 可 以 
使 用 一 些 查 询 语 名 进行 查询 来 验证 初始 数据 是 否 存 在 。 


查询 。 程 序 代码 依赖 SQL 查询 。 你 可 以 在 测试 环境 中 执行 一 些 查 询 操 作 来 验证 语法 和 结 末 。 确 
认 结 来 集中 包含 了 所 期 望 的 列 和 数据 类 型 ， 就 像 测 试 表 和 视图 一 样 。 


ORM 类 。 就 像 触发 器 一 样 ， ORM 类 也 包含 逻辑 、 验 证 、 转 换 或 者 监控 。 你 应 该 像 对 待 其 他 的 程 
序 代码 那样 对 基于 ORM 的 数据 库 抽 象 代码 进 行 测试 。 确 认 这 些 类 在 答 入 不 同 的 参数 时 的 行 
为 如 期 望 的 那样 ， 并 且 它们 会 拒绝 接受 非法 参数 。 


如 末 这 些 测试 中 的 任何 一 个 没有 通过 ,， 可 能 是 因为 程序 在 使 用 错误 的 数据 库 实 例 。 总 是 要 反 
复 确 认 你 所 连接 的 数据 库 是 否 正确 一 一 最 第 见 的 错误 其 实 就 古 连 错 数 据 库 。 如 琳 必 要 ， 可 以 修改 
配置 然后 重新 执行 一 饥 济 试 。 如 琳 你 确信 和 链接 古 正 确 的 ,但 需要 修改 数据 库 ， 那 可 以 执行 一 个 迁 
移 脚 本 来 同步 这 个 数据 库 实例 到 程序 所 期 望 的 版 本 。 














24.5.4 例证 : 同时 处 理 多 个 分 文 


在 开发 程序 时 ,你 可 能 需要 同时 操作 多 个 版 本 ,其 至 可 能 在 同一 天 就 操作 多 个 不 同 的 版 本 。 
比如 ， 你 可 能 在 当前 部 署 的 程序 分 支 中 修复 了 一 个 紧急 Bug， 然 后 很 快 又 回 到 主 分 支 的 长 期 开 
发 中 。 

但 程序 所 使 用 的 数据 库 并 没有 版 本 控制 。 要 在 一 瞬 眼 的 功夫 内 重新 部 署 一 个 数据 库 古 不 现实 
的 ， 即 使 你 所 使 用 的 数据 库 非 常 敏捷 和 多 于 使 用 。 

理想 情况 下 ， 可 以 为 每 个 开发 、 测 试 、 分 阶段 进行 或 者 部 署 的 程序 版 本 分 文 创建 独立 的 数据 
库 实例 。 同时， 每 个 项 目 组 内 的 开发 人 员 也 需要 一 个 独立 的 数据 库 实例 ， 从 而 在 不 影响 整个 团队 
中 其 他 人 开发 进度 的 情况 下 ， 他 们 能 够 完成 开发 任务 。 
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在 程序 配置 项 中 增加 选择 数据 库 连 接 的 字段 ， 如 此 一 来 , 无论 你 在 哪个 版 本 下 工作 ,都 可 以 
在 不 修改 代码 的 情况 下 指定 一 个 数据 库 链 接 。 

如 今 ， 每 个 RDBMS 品牌 的 商业 版 和 开源 应 本 ， 都 提供 开发 及 测试 的 免费 解决 方案 。 使 用 诸 
如 VMware Workstation、Xen 和 VirtualBox 之 类 的 平台 虚拟 化 技术 ， 每 个 程序 员 都 可 以 以 很 小 的 
代价 运行 一 个 服务 絮 端 基础 设施 的 克隆 版 本 , 没有 理由 让 程序 员 在 一 个 和 生产 环境 不 一 至 的 环境 
中 进行 开发 和 测试 了 。 


数据 库 和 程序 者 需要 采用 软件 开发 的 最 佳 实践 ， 包 括 文档 、 测 试 和 版 本 控制 。 
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H. 工 . 门 肯 


“为 什么 加 这 么 个 小 功能 要 花 这 么 长 时 间 ? ”经 理 指派 你 的 团队 扩展 Bug 跟踪 系统 ， 增 加 一 
个 展示 每 个 Bug 有 多 少 评论 数量 的 功能 。 你 的 团队 已 经 为 此 工作 四 周 了 。 





开会 议 室 里 ， 你 的 组 员 们 都 壹 于 回答 老 航 的 问题 。 作 为 项 目 经 理 ， 你 不 得 不 回答 : “我们 在 
最 开始 的 时 候 犯 了 儿 个 错误 , 这 个 需求 最 初 看 起 来 实现 很 方便 , 后 来 我 们 半 识 到 在 程序 中 还 有 其 
他 几 个 春 面 也 需要 展示 评论 数量 。 





“设计 这 些 界面 要 花 四 个 礼拜 ? ”经 理 问 。 


这 倒 不 是, 这 些 界 面 只 古 一 些 HIML， 由 于 我 们 用 的 框 以 是 将 代码 和 展示 分 离 的 ， 这 些 界 
面 的 开发 很 简单 。 你 继续 说 ，“ 但 每 次 我 们 要 往 界面 上 增加 一 点 新 的 条 目 ， 必 须 复制 一 份 同样 
的 代码 到 这 个 界面 的 后 交代 码 中 ， 用 以 歼 取 数据 。 这 意味 着 每 个 后 端的 类 都 需要 进行 一 系列 新 
的 测试 。 








“我 们 难道 没有 使 用 测试 框架 ? ”经 理 则 ,，“ 增 加 一 些 新 的 测试 用 例 要 花 多 入? 


“编写 测试 不 像 编 写 代码 那么 容易 ， 男 一 个 工程 师 犹 光 地 说 ，“ 我 们 还 要 为 编写 脚本 构建 测 
试 数据 。 接 着 要 在 每 次 测试 之 前 重新 将 数据 载 入 济 试 数据 库 中 。 我 们 还 要 测试 前 问 ， 每 个 新 增 的 
特性 都 要 针对 老 功 能 的 每 一 种 组 合 进 行 测 试 。 


经 理 眼 睛 具 得 大 大 的 , 但 你 的 同事 继续 说 着 : “我们 现在 对 于 前 问 已 经 有 600 个 测试 用 例 了 ， 
每 一 个 测试 都 会 创建 一 个 新 的 六 咒 如 模拟 如 。 时 间 都 花 在 执行 这 些 测 试 上 了 。 他 管 伟 肩 ，“ 我 们 
对 此 无 能 为 力 。 
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经 理 深 吸 了 一 口气 ， 说 :“ 好 吧 .…… 你 说 的 我 并 不 全 都 理解 ， 我 只 是 想 要 知道 为 什么 加 这 么 
一 个 简单 的 功能 会 变 得 如 此 复杂 。 你 们 所 用 的 面向 对 象 框架 难道 不 支持 快速 、 简 单 地 添加 新 功能 
吗 ? ” 


好 问题 ! 
25.1 目标 : 简化 MVC 的 模型 


Web 程序 框架 使 得 往 程 序 中 添加 新 功能 变 得 更 人 简单、 快速 。 在 软件 项 目 中 ,最 大 的 成 本 就 古 
开发 时 间 。 因 此 ， 我 们 所 减少 的 任何 一 点 开发 时 间 ， 都 能 使 得 软件 开发 的 成 本 降低 。 

RobertL. Glass 认为 :“80% 的 软件 工作 是 智力 活动 。 相 当 大 的 比例 古 创造 性 的 活动 。 很 少 古 
文书 性 的 工作 。”“ 

有 一 种 方法 有 助 于 我 们 在 软件 开发 过 程 中 思考 ,， 那 就 是 采用 设计 模式 的 术语 和 习俗 。 当 我 们 
说 单 例 模式 、 外 观 模 式 或 者 工厂 模式 的 时 候 ， 项 目 组 内 的 其 他 开发 人 员 午 知 道 我 们 在 说 些 什 么 。 
这 样 做 节省 了 很 多 时 间 。 

在 任何 项 目 中 , 大 多 数 的 代码 都 是 重复 的 一 一 几乎 都 长 得 一 样 。 框 架 通 过 提供 可 重用 的 组 件 
和 代码 生成 工具 儿 助 我 们 提升 编写 代码 的 速度 ， 做 到 少 写 代 码 也 能 开发 出 可 以 工作 的 软件 。 


当 使 用 模型 -视图 -控制 器 (MVC) 架构 的 时 候 ， 我们 就 古 同时 在 使 用 设计 模式 和 软件 框架 。 
这 是 一 个 拆 分 程序 逻辑 的 技术 ， 束 如 图 25-1 所 展示 的 那样 。 


D 控制 器 接收 用 户 的 输入 ， 定 义 一 些 程序 需要 完成 的 啊 应 逻辑 ， 再 委托 合适 的 模型 执行 操 
作 ， 然 后 将 结 末 返回 给 视图 。 

D 模型 处 理 所 有 其 他 的 事情 ， 它 们 古 程 序 的 核心 ， 包 括 输入 验证 、 业 务 逻 辑 和 数据 库 交 互 。 

口 视图 处 理 在 用 户 界面 展示 信息 。 











图 25-1 模型 -视图 -控制 细 (MVC) 


理解 控制 登 和 视图 的 行为 很 容易 ,但 是 模型 的 目的 就 比较 模糊 。 在 软件 开发 人 员 的 社区 中 篆 
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讨论 的 问题 便 是 ， 为 了 减少 软件 设计 的 复杂 度 ， 如 何 向 化 和 抽象 模型 。 但 是 通 笛 这 个 目标 会 导致 
他 们 过 度 简化 模型 ， 以 至 于 把 它 仅仅 视 作 一 个 数据 访问 对 象 。 


25.2 反 模 式 : 模型 仅仅 是 活动 记录 


在 人 简单 的 程序 中 ,你 不 需要 在 模型 中 定义 很 多 次 辑 。 相 对 而 言 ,模型 更 像 古 数据 库 中 的 茶 个 
表 的 映射 对 象 ， 也 是 一 种 对 象 - 关 系 映射 ORM)。 你 需要 这 个 对 象 做 的 所 有 事情 是 知道 如 何 往 
表 中 插入 新 行 、 读 取 一 行 ， 以 及 更 新 和 删除 自己 一 一 基本 的 CRUD 操作 。 


Martin Fowler 将 这 种 映射 关系 概括 为 一 种 设计 模式 ， 叫 做 活动 记录 ”。 活 动 记录 模式 是 一 种 
数据 访问 模式 。 其 方法 是 将 一 个 类 与 数据 库 中 的 一 张 表 或 者 一 个 视图 相关 联 。 你 可 以 调用 这 个 类 
的 人 indO 〇 方法 返回 一 个 关联 到 这 张 表 或 者 视图 的 某 一 行 的 类 对 象 实 例 。 你 还 可 以 使 用 这 个 类 的 
构造 器 来 创建 一 个 新 行 。 调 用 save 〇 方法 执行 插入 或 者 更 新 现 有 的 行 。 





Magic-Beans/anti/doctrine.php 


<?php 
$bugsTable = Doctrine_ Core::getTable( 'Bugs '); 
$bugsTable->find(1234); 


$bug = new Bugs() ; 
$bug->summary = "Crashes when I save"; 
$bug->save(); 


目 2004 年 开始 ，Ruby on Rails 使 活动 记录 模式 在 Web 程序 开发 框 染 中 流行 起 来 ,现在 大 多 
数 的 Web 程序 框架 使 用 这 种 模式 作为 数据 访问 对 象 (DAO)。 使 用 活动 记录 模式 并 没有 什么 错 ， 
这 是 一 个 很 好 的 模式 ， 提 供 了 简单 访问 表 中 特定 行 的 接口 。 我 们 所 要 说 明 的 反 模 式 是 在 MVC 程 
序 中 ， 所 有 模型 类 虱 继 承 自 同一 个 活动 记录 基 类 这 一 习惯 做 法 。 这 是 一 个 “ 金 锤 子 ” 反 模式 的 例 
子 : 如 末 你 多 唯一 工具 是 一 把 锤子 ， 那 么 就 会 将 每 个 东西 部 看 做 条 子 。 

所 有 能 简化 软件 设计 的 做 法 都 很 吸引 人 。 如 采 我 们 愿意 牺牲 一 些 灵 活性 , 就 能 让 工作 更 简单 ， 
而 且 ， 如 生灵 话 性 从 一 开始 克 不 重要 ， 那 克 更 好 了 。 

但 这 是 个 董 话 故 事 ， 就 像 《 杰 克 与 魔 豆 》 一 样 。 杰 元 相信 当 他 睡 着 的 时 候 ， 他 的 魔 豆 会 长 成 
一 个 巨大 的 豆 和 至。 在 杰克 的 故事 中 的 确 就 是 这 么 发 生 的 ,但 我 们 不 可 能 都 这 么 茎 运 。 让 我 们 来 看 
看 使 用 魔 豆 反 模 式 的 后 末 。 





@ Create, Read, Update Delete， 增 删改 查 操作 。 译 者 注 
@ 参 攻 Patterns of Enterprise Application Architecture 中 “Active Record” 一 音 。 
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抽象 泄露 


Joel Spolsky 在 2002 年 提出 了 “抽象 泄露 ”这 个 词 。 抽象 简化 了 一 些 技术 的 内 部 工作 原 
理 并 且 让 其 更 加 方便 调用 。 但 当 由 于 需要 更 高 效 的 生产 效率 而 不 得 不 了 解 内 部 细节 的 时 候 ， 
就 称 之 为 抽象 泄露 。 

在 MVC 架构 中 ， 把 活动 记录 模式 作为 模型 层 来 使 用 就 是 抽象 泄露 的 例子 。 在 非常 简单 
的 项 目 中 , 活动 记录 模式 就 像 魔 法 一 样 神 奇 。 但 如 果 你 想 要 在 所 有 的 数据 库 态 问 上 都 使 用 这 
个 模式 ， 你 就 会 发 现 很 多 诸如 JOIN 或 者 GROUP BY 的 这 些 在 SQL 中 很 简单 的 操作 ， 在 活动 
记录 模式 中 变 得 很 可 怕 。 

有 些 框架 尝试 扩展 活动 记录 模式 来 支持 更 大 规模 的 SQL 语 身 。 但 是 框架 暴露 的 使 用 SQL 
内 部 接口 越 多 ， 你 就 会 越 觉 得 不 如 直接 使 用 SQL 来 得 方便 。 

抽象 模式 因此 不 再 能 隐藏 它 的 秘密 ,就 像 绿 野 仙 中 里 的 托 托 发 现 精 灵 不 过 是 藏 在 窗帘 后 
的 普通 人 一 样 。 


* 参考 《抽象 泄露 法 则 》[Spo02] 


25.2.1 活动 记录 模式 连接 程序 模型 和 数据 库 结构 


活动 记录 模式 是 一 种 简单 的 模式 , 因为 一 个 普通 的 活动 记录 类 只 能 表示 数据 库 中 一 张 表 或 者 
一 个 视图 。 活 动 记录 对 象 中 的 每 一 个 字段 对 应 于 相关 表 中 的 一 列 。 如 琳 你 有 16 张 表 ， 就 要 定义 
16 个 模型 子 类 。 

这 意味 着 , 如 朱 需 要 重 构 数 据 库 来 表示 一 个 新 数据 结构 , 你 的 模型 类 就 需要 跟着 改变 , 同时 ， 
任何 使 用 这 些 模型 类 的 代码 也 都 需要 改变 。 还 有 ， 如 来 增加 了 一 个 控制 如 来 处 理 新 的 程序 界面 ， 
你 也 需要 重复 这 些 低 询 模 型 的 代码 。 


25.2.2 ”活动 记录 模式 暴露 了 CRUD 系 列 函 数 
接 下 来 你 需要 面临 的 问题 就 是 ,其 他 使 用 模型 类 的 程序 员 会 无 视 你 设 定 的 使 用 方法 ,他 们 会 
直接 使 用 CRUD 函数 来 更 新 数据 。 


比如 ， 你 可 能 在 Bug 模型 中 有 一 个 叫做 assignUserO 的 方法 解决 每 次 更 新 Bug 之 后 发 送 一 
封 邮件 给 相关 工程 师 的 需求 。 


Magic-Beans/anti/crud.php 








<?php 
class CustomBugs extends BaseBugs 


{ 
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public function assignUser(Accounts $a) 
{ 

$this->assigned to = $a->account_1d; 

$this->save(O): 

mail($a->email, "Assigned bug", 

"You are now responsible for bug #{$this->bug_1id}."); 
} 
. 


然而 ， 另 一 个 编程 人 员 名 略 了 你 的 方法 ， 他 手动 地 分 配 了 这 个 Bug 却 没 有 发 送 邮 件 。 
Magic-Beans/anti/crud.php 


$bugsTable = Doctrine Core::getTable( 'Bugs '); 
$bugsTable->find(1234); 

$bug->assigned to = $user->account_1id; 
$bug->saveQO; 


你 的 需求 是 无 论 何 时 对 一 个 任务 进行 变更 操作 , 部 要 有 一 封 邮件 提醒 。 而 这 种 模型 设计 允许 
略 过 这 一 步 。 将 活动 记 孙 类 的 CRUD 方法 暴露 给 驱动 模型 类 是 否 丰 的 有 意义 呢 ?” 要 如 何 阻止 那 
些 使 用 这 些 方法 的 程序 员 的 不 合理 调用 ? 如 何在 编写 项 目 文档 和 具体 代码 实现 的 时 候 , 将 这 些 活 
动 记录 的 接口 从 你 的 模型 类 中 排除 呢 ? 


25.2.3 ”活动 记录 模式 支持 弱 域 模型 


另 一 个 非常 值得 关注 的 问题 ， 就 是 一 个 活动 记录 模型 通常 除了 CRUD 方法 之 外 ， 没 有 别 的 
行为 。 很 多 程序 员 扩 展 了 这 个 基本 的 活动 记录 类 ， 却 不 为 这 个 模型 所 需 处 理 的 业务 逻辑 添加 新 的 
方法 。 

将 模型 简单 地 当成 数据 访问 对 象 ， 鼓 励 开 发 人 员 将 业务 逻辑 放 在 模型 类 之 外 去 实现 , 通常 这 
些 逻 辑 就 会 被 拆 分 到 多 个 控制 类 中 ， 从 而 减少 了 模型 本 身 的 内 聚 行为 。Martin Fowler 在 他 的 博客 
里 称 这 种 反 模式 为 弱 域 模型 *?。 比 如 说 ， 你 可 能 有 一 系列 独立 的 活动 记录 类 ， 它 们 分 别 关联 到 
Bugs、Accounts 和 Products 表 ， 但 在 很 多 地 方 你 都 是 同时 需要 这 三 张 表 中 的 数据 的 。 

让 我 们 看 一 段 Bug 跟踪 程序 中 的 代码 ,其 人 简单 地 实现 了 Bug 指派 、 数 据 输 入 、Bug 显示 和 搜 
索 的 工作 。 它 使 用 的 PHP 框架 叫做 Doctrine, 这 个 框架 提供 简单 的 活动 记录 接口 , 并 且 使 用 Zend 
框架 来 实现 MVC 架构 。 


Magic-Beans/anti/anemic.php 











<?php 
class AdminController extends Zend Controller Action 


public function assignAction() 


© http:/www.martinfowler.com/bliki/Anemic Domain Model.html, 
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a 
$bugsTable = Doctrine Core::getTable("Bugs"); 
$bug = $bugsTable->find($_ POST["bug_1id"]); 
$bug->Products[] = $_POST["product 1id"]; 
$bug->assigned to = $_ POST["user assigned to"]; 
$bug->save(); 


上 
| 
class BugController extends Zend Controller_Action 
{ 
public function enterAction() 
{ 
$bug = new Bugs QO; 
$bug->summary = $_POST["summary"]; 
$bug->description = $_POST["summary"]; 
$bug->status = "NEW"; 
$accountsTable = Doctrine Core::getTable("Accounts"); 
$auth = Zend_Auth: :getInstance(); 
if ($auth && $auth->hasIdentity()) { 
$bug->reported by = $auth->getIdentity(); 
; 
$bug->saveQO); 
} 
public function displayAction() 
{ 
$bugsTable = Doctrine Core: :getTable("Bugs"); 
$this->view->bug = $bugsTable->find($_ GET["bug_id"]); 
$accountsTable = Doctrine_ Core::getTable("Accounts"); 
$this->view->reportedBy = $accountsTable->find($bug->reported_by); 
$this->view->assignedTo = $accountsTable->find($bug->assigned to); 
$this->view->verifiedBy = $accountsTable->find($bug->verified_by); 
$productsTable = Doctrine_ Core::getTable("Products"); 
$this->view->products = $bug->Products; 
} 
lL: 


class SearchController extends Zend Controller Action 
L 
public function bugsAction() 
t 
4q = Doctrine Query: :create() 
->from("Bugs b") 
->Join("b.Products p') 
->where("b.status = ?", $ GET["status"]) 
->andwhere( ”MATCHCb .summary，b.description) AGAINST (?)", $ GET["search"]); 
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$this->view->searchResults = $q->fetchArrayQO; 
} 
} 


使 用 活动 记录 的 控制 器 代码 逐渐 变 成 组 织 程序 逻辑 的 技术 手段 。 如 果 数 据 库 的 结构 或 者 程序 
的 期 望 行为 改变 了 ， 你 就 需要 更 新 代码 中 的 很 多 地 方 。 同 时 ， 如 果 增 加 了 一 个 控制 器 ， 即 使 这 个 
控制 器 对 模型 对 象 的 查询 逻辑 和 其 他 的 控制 器 中 的 实现 很 类 似 ， 你 也 要 编写 新 的 代码 来 处 理 。 

类 交互 图 (图 25-2) 很 混乱 而 且 难 以 阅读 ， 当 增加 了 新 的 控制 器 和 DAO 类 时 ， 它 只 会 变 得 
更 糟糕 。 这 是 一 个 很 强烈 的 信号 一 一 这 些 同时 使 用 不 同 模型 的 代码 在 多 个 控制 器 复制 来 复制 去 ， 
你 需要 使 用 另 一 种 方法 来 简化 和 压缩 程序 。 








Admin DataEntry Display Search 
摊 制 各 控制 器 控制 器 控制 器 


Bugs Accounts Products 
活动 记录 活动 记录 活动 记录 





25-2 ”使 用 魔 豆 霹 成 训 乱 


25.2.4 ” 魔 豆 难以 进行 单元 测试 
使 用 了 魔 豆 反 模式 ， 你 会 发 现 测试 MVC 的 每 一 层 都 变 得 更 加 困难 ，。 


D 测试 模型 :由 于 将 模型 类 等 同 于 活动 记录 类 ， 你 无 法 将 数据 访问 与 模型 行为 分 开 测 试 。 
要 测试 这 些 模 型 ， 你 就 必须 连 上 真实 的 数据 库 执行 查询 。 

很 多 人 使 用 数据 库 固 定 工具 。 数 据 库 固 定 工具 将 数据 载 入 到 神 试 数据 库 中 ， 来 确保 每 个 
测试 使 用 的 古 同样 的 标准 数据 。 这 样 复 杂 的 步骤 使 得 测试 模型 的 过 程 变 得 缓慢 且 容 易 出 
错 ， 就 和 请 求 真实 数据 库 进行 测试 一 样 奈 烦 。 

口 测试 视图 : 测试 视图 包括 将 视图 呈现 成 HTML 内 容 并 解析 其 结果 ， 来 验证 由 模型 提供 的 
动态 HTML 条 目 确实 出 现在 了 输出 中 。 即 使 你 所 使 用 的 框架 人 简化 了 测试 脚本 中 的 判定 过 
程 ， 框 架 还 是 要 执行 复杂 且 耗 时 的 代码 来 至 现 及 解析 HTML 中 指定 的 条 目 。 

D 测试 控制 器 : 你 将 发 现 测 试 控制 如 也 变 得 很 复 淋 ， 因 为 模型 就 是 导致 同样 的 代码 在 多 个 
控制 占 中 重复 出 现 的 数据 访问 对 象 ， 所 有 的 代码 都 需要 测试 。 

要 测试 控制 各, 你 需要 模拟 一 个 HTTP 请 求 。Web 程序 的 输出 是 一 个 HTTP 了 啊 应 包 的 包头 
和 包 体 。 要 验证 这 个 测试 的 结 末 ， 就 不 得 不 拆 分 由 控制 带 返 回 的 HTTP 啊 应 的 内 容 。 这 
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需要 很 多 的 代码 来 测试 业务 逻辑 ， 叶 致 测试 进行 得 很 慢 。 


如 林 你 能 够 将 业务 逻辑 和 数据 库 访 问 以 及 展示 层 拆 分 开 ， 将 有 助 于 达成 MVC 的 目标 ， 同 时 
会 让 测试 变 得 更 简单 。 


25.3 如何 识 别 反 模 式 
下 面 的 线索 可 能 意味 着 你 用 了 魔 豆 反 模式 。 


D 我 要 怎么 传递 一 个 目 定 义 的 SQL 查询 给 模型 ? 
这 个 问题 表示 了 你 正在 使 用 一 个 数据 库 访问 类 做 为 模型 类 。 你 不 应 该 将 SQL 查询 语句 传 
递 给 模型 对 象 一 一 模型 类 应 该 赛 括 了 所 有 它 需 要 的 奏 询 。 

D “我 应 该 复制 复杂 有 的 模型 查询 到 我 所 有 鸭 控制 姻 内 ， 还 是 在 一 个 抽象 控制 融 内 实现 这 些 
代码 ? 
这 两 种 方案 都 无 法 给 你 市 来 简单 性 或 者 稳定 性 。 你 应 该 将 复杂 的 查询 代码 写 在 模型 类 里 
面 ， 作 为 模型 类 的 接口 暴露 出 来 。 这 样 ， 就 遵循 了 “不 要 重复 自己 (DRY ) ”的 原则 ， 
并 且 模 型 使 用 起 来 更 简单 。 

D “我 不 得 不 写 更 多 的 数据 库 固 定 工具 来 对 模型 进行 单元 测试 。 
如 琳 你 正在 使 用 数据 库 固 定 工 具 ， 就 古 说 正在 测试 数据 库 访 问 而 不 是 业务 逻辑 。 你 应 该 
将 对 模型 的 单元 测试 和 数据 库 分 离开 。 


25.4 合理 使 用 反 模 式 


本 质 上 说 ,活动 记录 模式 并 没有 什么 错 ， 对 于 人 简单 的 CRUD 操作 来 说 ， 这 是 一 个 很 方便 的 
模式 。 在 大 多 数 程序 中 ， 总 有 一 些 情 况 只 需要 简单 的 数据 访问 对 象 , 来 提供 一 些 简 单 的 对 于 表 的 
行 操作 。 此 时 ， 你 可 将 模型 和 DAO 视 作 同 一 个 东西 。 

另 一 个 使 用 活动 记录 的 好 地 方 定 原型 开发 。 当 快速 编码 比 写 代码 的 可 测试 性 和 可 维护 性 还 重 
要 的 时 候 , 捷径 是 关键 。 在 早期 的 工作 中 展示 一 个 原型 来 获得 积极 的 反馈 ， 通 第 是 提炼 项 目的 一 
个 好 方法 。 任何 你 能 加 速 原型 开发 的 方法 在 这 些 情况 下 都 是 很 有 帮助 的 , 使 用 一 个 简单 的 程序 框 
架 也 很 有 用 。 

此 外 ,你 必须 要 确认 你 留 有 一 定 的 时 间 来 重 构 代 码 , 从 而 偿还 在 原型 开发 阶段 的 技术 债务 。 


25.5 解决 方案 : 模型 包含 活动 记录 


控制 如 处 理 程序 输入 ,视图 处 理 程 序 输出 ,两 者 的 任务 都 相对 简单 且 定 义 清 楚 。 框 架 是 帮助 






































Q@ DRY 出 现在 The Praematic Programmer[HT00]， 由 Andy Hunt 和 Dave Thomas 所 条。 
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你 将 这 些 东 西 快速 融合 在 一 起 的 最 好 方法 。 但 是 对 于 框架 来 说 ， 很 难 给 模型 提供 一 个 “ 通 吃 ” 的 
解决 方案 ， 因 为 模型 包含 了 面 癌 对 象 设 计 中 的 其 余部 分 。 
这 古 你 确实 需要 仔细 芳 虑 的 部 分 , 关于 你 的 程序 中 的 对 象 是 什么 , 以 及 这 些 对 象 包含 什么 数 
据 和 行为 。 还 记得 Robert L. Glass 评估 软件 开发 中 的 主要 工作 是 智力 话 动 和 创造 力 吗 ? 
25.5.1 领会 模型 的 意义 


所 幸 的 是 ,在 面向 对 象 设 计 领 域 ， 有 很 多 格言 警句 能 指导 你 。 比 如 ，Graig Larman 的 《UML 
和 模式 应 用 》(Applying UML and Patterns[Lar04]) 一 书 ， 描 述 了 很 多 指导 方针 ， 被 称 为 通用 职 贡 
软件 分 配 模 式 (GRASP)。 其 中 的 一 些 指 导 原 则 和 分 离 模型 和 数据 访问 对 象 尤 其 相关 。 


信息 专家 











一 个 对 象 应 该 有 所 有 需要 的 数据 来 满足 它 所 负 贡 的 操作 。 由 于 程序 中 的 一 些 操作 可 能 会 包 仿 
多 个 表 〈 或 者 没有 表 ) ， 并 且 活 动 记录 只 适用 于 一 次 操作 一 张 表 ， 我 们 需要 另 一 个 类 来 聚合 多 个 
数据 库 访问 对 象 ， 并 利用 这 些 对 象 进行 组 合 操 作 。 

模型 和 活动 记录 之 类 的 DAO 之 间 的 关系 应 该 是 HAS-A (聚合 ) 而 不 是 IS-A (继承 )。 大 多 
数 依赖 于 活动 记录 模式 的 框架 都 使 用 IS-A 的 解决 方案 。 如 琳 你 的 模型 使 用 DAO 而 不 古 直接 从 
DAO 类 继承 ， 那 么 你 就 能 将 这 个 模型 设计 成 包含 所 有 的 数据 和 代码 来 表达 它 代表 的 领域 的 形 
去 一 一 即使 需要 用 多 张 表 来 表示 。 


创造 者 





一 个 模型 如 何 维护 数据 库 应 该 是 它 的 内 部 实现 细 贡 ， 一 个 聚集 了 一 系列 DAO 的 领域 模型 应 
该 负责 创建 这 些 对 象 。 


程序 的 控制 器 和 视图 应 该 使 用 领域 模型 的 接口 ,而 不 用 关心 这 个 模型 使 用 哪 种 数据 库 交 互 广 
式 对 数据 进行 存 取 。 这 使 得 日 后 修改 数据 库 查 询 变 得 更 加 容易 ， 只 需要 修改 一 个 地 方 。 

低 耦 合 

解 看 程序 中 的 逻辑 区 块 是 非常 重要 的 ,这么 做 能 够 让 你 更 加 灵活 地 改变 某 一 个 类 的 实现 , 同 
时 又 不 影响 这 个 类 的 调用 方式 。 程 序 的 需求 是 无 法 简化 的 ， 一 些 复杂 的 逻辑 无 法 在 程序 中 合 弃 ， 
但 你 可 以 对 在 何 处 实现 这 些 复杂 的 逻辑 做 出 正确 的 选择 。 


高 内 聚 
领域 模型 的 接口 应 该 反映 出 它 所 期 望 的 调用 方式 ， 而 不 是 数据 库 物 理 结构 或 者 CRUD 操作 。 
通常 的 活动 记 东 模式 的 接口 ， 如 find()、first(O)、insertQ 〇 或 者 saveQO， ， 并 没有 给 出 多 少 对 
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软件 需求 实现 方面 的 信息 。 而 类 似 于 assignUserO 的 方法 则 更 加 具有 说 明 性 ， 并 且 探 制 袁 代码 
也 能 变 得 更 容易 理解 。 

将 模型 类 和 它 所 使 用 的 DAO 解 耦 后 ， 你 甚至 可 以 为 同一 个 DAO 设计 多 个 模型 类 。 这 上 比 将 
所 有 关于 给 定 表 的 相关 工作 都 合并 到 单一 展开 的 活动 记录 类 中 要 好 很 多 。 
25.5.2 ”将 领域 模型 应 用 到 实际 工作 中 

在 《领域 驱动 设计 : 软件 核心 复杂 性 应 对 之 道 》(Domain-Driven Desien: Tackling Complexity 
in the Heart of Sofiware[Eva 03]) 一 书 中 ，Eric Evans 介绍 了 一 个 更 好 地 解决 方案 : 领域 模型 。 


在 最 初 的 MVC 概念 中 (而 不 是 武断 的 软件 设计 )， 一 个 模型 所 表示 的 是 程序 中 某 一 领域 的 
面 癌 对 象 的 表现 手段 ， 也 就 古 说 , 程序 中 的 业务 逻辑 和 所 需要 的 数据 。 模 型 是 实现 程序 业务 逻辑 
的 地 方 ， 将 数据 存储 在 数据 库 中 是 模型 的 内 部 实现 细 市 。 


既然 我 们 让 模型 设计 围绕 着 程序 的 逻辑 ,而 不 古 数 据 库 层面 , 就 可 以 将 数据 库 操 作 完 全 隐 妃 
在 模型 类 里 面 。 看 一 下 可 以 重 构 我 们 早先 的 例子 的 几 处 地 方 : 








Magic-Beans/soln/domainmodel.php 


<?php 


class BugReport 

{ 
protected $bugsTable; 
protected $accountsTable; 
protected $productsTable; 


public function _construct() 

{ 
$this->bugsTable = Doctrine_ Core: :getTable("Bugs"); 
$this->accountsTable = Doctrine Core::getTable("Accounts"); 
$this->productsTable = Doctrine Core::getTable("Products"); 

) 


public function create($summary, $description, $reportedBy) 
| 

$bug = new Bugs(C) ; 

$bug->summary = $summary 

$bug->description = $description 

$bug->status = "NEW"; 

$bug->reported_ by = $reportedBy ; 

$bug->save(); 
} 


public function assignUser($bugId, $assignedTo) 
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$bug = $bugsTable->find($bugId); 
$bug->assigned to = $assignedTo"]; 
$bug->save QO); 

} 

public function get($bugId) 

{ 
return $bugsTable->find($bugId); 

: 


public function search($status, $searchString) 
{ 
4q = Doctrine Query: :create() 
->from("Bugs b") 
->Join("b.Products p') 
->where("b.status = ?", $status) 
->andWhere("MATCH(b.summary, b.description) AGAINST (?)", $searchString]); 
return $9q->fetchArray(); 
} 
» 


class AdminController extends Zend Controller Action 
{ 
public function assignAction() 
{ 
$this->bugReport->assignUser( 
$this->_getParam("bug"), 
$this->_getParam("user")); 


class BugController extends Zend Controller_Action 
4 
public function enterAction() 
{ 
$auth = Zend_ Auth: :getInstance(); 
if ($auth && $auth->hasIdentity()) { 
$identity = 9auth->getIdentity() ; 
} 
$this->bugReport->create( 
$this->_getParam("summary"), 
$this-> getParam("descript1ion"), 
$identity); 


public function displayAction() 
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{ 
$this->view->bug = $this->bugReport->get( 
$this->_getParam("bug")); 
} 
} 


class SearchController extends Zend Controller Action 


lL 
public function bugsAction() 


| 


$this->view->searchResults = $this->bugReport->searcht( 
$this->_getParam("status", "OPEN"), 
$this->_getParam("search")); 
} 
, 


你 可 能 注意 到 了 几 处 改进 。 

D 类 交互 图 (图 25-3) 变 得 更 加 简单 且 易 读 了 ， 象 征 着 各 个 类 之 间 的 解 耦 。 

D 通过 解 耦 模型 接口 和 底层 的 数据 库 结 构 ， 我 们 减少 且 简 化 了 控制 合 的 代码 。 

D 模型 类 创建 对 象 和 一 个 或 者 多 个 表 进 行 交 互 ， 控 制 礁 不 需要 知道 哪 张 表 被 ?| 用 了 。 

D 模型 类 封装 、 隐 藏 了 数据 库 查 询 ， 控 制 登 只 关心 用 户 的 输入 ， 然 后 通过 调用 模型 的 API 
来 执行 更 高 层次 的 任务 。 

口 某 些 情况 下 , 一 个 查询 太 复 杂 而 无 法 人 简单 地 使 用 一 个 DAO, 编写 自 定义 的 SQL 就 变 得 很 
必要 。SQL 安全 地 包含 在 模型 类 里 时 ， 直 白地 使 用 它 看 上 去 不 那么 可 怕 。 

















Admin DataEntry Display Search 
控制 禹 控制 闪 控制 器 控制 器 


BugReport 


领域 模型 


Bugs Accounts Products 
活动 记录 活动 记录 活动 记录 





图 25-3 ”通过 解 厢 减少 混乱 
25.5.3 ”测试 简单 对 象 
理想 情况 下 ， 你 可 以 不 用 连接 到 真实 的 数据 库 来 测试 模型 。 如 果 将 模型 和 DAO 解 契 ， 那 么 
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可 以 模拟 DAO 来 帮助 对 模型 进行 单元 测试 。 

同样 ， 你 可 以 像 其 他 面 癌 对 和 象 的 测试 那样 测试 领域 模型 的 接口 : 调用 对 象 的 方法 ， 然 后 验证 
这 个 方法 的 返回 值 。 这 上 比 模拟 HTTP 请 求 来 填充 一 个 控制 亚 ， 并 且 解 析 HTTP 的 啊 应 要 快 得 多 ， 
容易 得 多 。 

你 还 是 需要 模拟 HITP 请 求 来 测试 控制 如 , 但 由 于 控制 器 的 代码 变 得 更 简单 ， 所 以 不 需要 测 
试 很 多 逻辑 分 文 。 

如 果 将 模型 和 控制 右 、 数 据 组 件 分 离 ， 就 可 以 对 所 有 这 些 类 都 进行 更 简单 的 、 更 独立 的 单元 
测试 。 这 能 帮助 你 更 容易 地 定位 缺陷 。 这 可 就 是 单元 测试 的 目的 所 在 啊 | 
25.5.4 回 到 地 球 


你 可 以 在 任何 软件 开发 框架 中 更 有 效 地 使 用 数据 访问 对 象 , 即使 这 个 框架 鼓励 使 用 魔 豆 反 模 
式 。 然而, 那些 不 知道 如 何 使 用 面 加 对象 设 计 原 则 的 开发 人 员 , 注定 会 写 出 意大利 面条 式 的 代码 。 

本 音 所 所 及 和 摘 述 的 领域 模型 的 基本 概念 ， 能 帮助 你 选择 最 好 的 设计 来 文 持 测试 和 代码 维 
护 ， 最 终 会 达到 高 效 开发 基于 数据 库 的 程序 的 目的 。 








将 模型 和 表 解 耦 。 
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规 沁 北 规 则 


年 轻 人 ， 在 数学 里 ， 你 们 并 不 理解 事情 ， 你 们 只 是 去 习惯 。 
约翰， 冯 。 诺 伊 曙 


设计 关系 型 数据 库 的 过 程 既 不 靠 腾 断 ,也 不 神秘 。 你 可 以 使 用 定义 好 的 一 系列 规则 来 设计 数 
据 存 储 策略 ， 从 而 名 免 元 侠 并 防止 应 用 程序 出 错 ， 就 像 本 书 之 前 提 到 的 poka-yoke 方法 一 样 。 你 
可 能 听 说 过 类 似 的 一 些 概 念 ， 比 如 “防御 设计 ”或 者 “尽早 暴露 错误 ”等 ， 

规范 化 规则 并 不 复杂 ,但 很 隐 史 。 开 发 人 员 通 常会 误解 它们 的 原理 ， 可 能 是 因为 他 们 将 规则 
想 得 过 于 复杂 了 。 

另 一 种 可 能 性 就 是 开发 人 员 本 身 抗拒 遵循 规则 。 规则 是 那些 具有 创新 精神 的 程序 员 所 部 视 的 
东西 ， 也 是 自由 的 对 立 面 。 

软件 开发 人 员 需 要 不 断 在 简单 和 灵活 之 间 进 行 取舍 。 你 可 以 做 很 多 重新 发 明 轮 子 的 工作 和 开 
发 自 定义 的 数据 管理 软件 ， 或 者 通过 遵循 相关 的 设计 ， 利 用 已 有 的 知识 和 技术 。 

本 书 中 我 根据 那些 反 模 式 的 优点 (或 者 缺点 ) 来 描述 它们 ， 来 避免 过 于 学 术 或 者 理论 性 。 但 
在 这 个 附录 中 ， 我 们 将 看 到 理论 也 可 以 变 得 很 实用 。 


A.1 关系 是 什么 

“关系 ”这 个 术语 并 不 是 指 表 和 表 之 间 的 关系 。 它 指 表 自身 ， 或 者 更 进一步 ， 是 指 表 中 列 之 
四 的 关系 。 某 种 程度 上 来 说 ， 它 也 同时 表示 这 两 种 关系 。 

数学 家 将 关系 定义 为 ， 两 个 不 同 数据 域 上 的 值 的 集合 通过 一 定 的 条 件 得 到 一 个 所 有 可 能 组 
合 的 子 集 。 

比如 ， 一 个 包含 所 有 棒球 队 名 字 的 集合 ， 和 一 个 包含 所 有 城市 的 集合 。 将 每 个 城市 和 球 队 
的 组 合 都 列 出 来 ， 这 个 列表 可 以 很 长 很 长 。 但 我 们 只 关注 这 个 列表 的 一 个 子 集 : 球 队 和 其 所 属 
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城市 的 组 合 。 有 效 的 组 合 包 括 Chicago/White Sox、Chicago/Cubs 或 者 Boston/Red Sox， 但 没有 
Miam1/Red Sox 。 


“关系 ”这 个 词 有 两 种 用 法 : 作为 一 种 规则 〈 城市 指 某 一 支队 伍 所 属 的 城市 )， 或 者 作为 
过 着 子 集 的 规则 。 在 SQL 中 ， 我 们 可 以 将 这 个 子 集 存储 在 一 张 有 两 列 的 表 中 ， 每 一 行 对 应 一 个 


组 合 。 


当然 ， 关 系 并 不 局 限于 只 有 两 列 ， 可 以 将 任意 数量 的 数据 域 ， 每 个 占 一 列 ， 合 并 在 一 起 组 成 
一 个 关系 。 同 时 ， 数 据 域 可 以 是 32 位 整 型 数 的 集合 ， 也 可 以 古 固 定 长 度 字 符 串 的 集合 。 


在 对 表 进 行规 范 化 处 理 之 前 ， 需 要 确认 它们 的 关系 是 合适 的 ， 它 们 必须 满足 一 些 条 件 。 
A.1.1 行 之 间 没 有 上 下 顺序 

在 SQL 中 ， 查 询 返 回 的 结果 的 顺序 是 不 定 的 ， 除 非 使 用 ORDER BY 指定 排序 规则 。 当 然 ， 除 
了 顺序 ， 结 果 集 中 的 数据 总 是 一 致 的 。 
A.1.2 列 之 间 没 有 左右 顺序 

无 论 是 让 Steven 测试 Open RoundFile 这 个 项 目的 第 1234 号 Bug， 还 是 我 们 需要 知道 Open 
RoundFile 的 第 1234 号 Bug 是 否 能 让 Steven 来 验证 ， 最 终 得 到 的 查询 结果 应 该 是 一 样 的 。 

这 和 第 19 童 的 反 模式 相关 ， 那 时 我 们 使 用 列 的 顺序 而 不 是 列 名 。 
A.1.3 重复 行 是 不 允许 的 

对 于 一 个 事实 ,进行 更 多 的 证 明 也 不 会 让 它 变 得 更 正确 。 给 定 一 个 棒球 队 的 队 名 , 数据 就 能 
出 它 所 在 的 城市 是 哪个 ， 我 们 可 以 说 城市 依赖 于 队 名 。 

要 阻止 重复 记录 ， 我 们 必须 能 区 别 两 行 数据 ， 并 且 能 定位 指定 的 行 。 在 SQL 中 ， 我 们 对 列 
或 者 列 的 集合 使 用 主键 约束 来 确保 这 一 点 ， 而 不 管 是 否 需要 保证 记录 唯一 性 。 

在 其 他 非 主键 列 里 可 能 还 是 存在 重复 一 一 波士顿 有 两 支 球 队 一 一 但 整体 来 看 每 一 行 是 不 重 
复 的 ， 因 为 这 两 支队 伍 的 队 名 不 同 。 
A.1.4 每 一 列 只 有 一 种 类 型 ， 每 一 行 只 有 一 个 值 

关系 头 定义 了 列 的 名 字 和 数据 类 型 。 每 一 行 数据 拥 有 的 列 和 头 中 的 定义 必须 匹配 , 且 每 一 列 
的 意义 在 所 有 行 中 必须 一 致 。 

第 6 章 的 反 模 式 有 两 处 违反 这 个 规则 的 地 方 。 首 先 , EAV 的 表 让 每 个 实例 的 模型 都 可 以 自 定 
义 属 性 集 ， 因 此 ， 实 体 的 结构 和 任何 头 定义 都 不 一 样 。 
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其 次 ，EAV 的 attr_value 列 包 含 了 所 有 实体 的 属性 ， 包 括 Bug 的 报告 日 期 、Bug 的 状态 、 
Bug 被 指派 给 哪个 账户 等 。1234 这 个 值 可 能 对 于 两 个 不 同 的 属性 来 说 都 是 合法 的 , 但 又 完全 具有 
不 同 的 含义 。 


第 7 全 中 的 反 模 式 也 破坏 了 这 条 规则 , 由 于 1234 这 个 值 可 能 会 引用 任意 多 个 父 表 中 的 主键 ， 
因此 无 法 断定 不 同 两 行 中 的 1234 是 否 具 有 相同 的 含义 。 


A.1.5 行 没 有 隐藏 组 件 


列 中 存储 的 古 数据 的 值 ， 不 包含 物理 存储 标示 ， 诸 如 行 ID 或 者 对 象 中。 在 第 22 革 中 ,我 
们 知道 主键 是 唯 一 的 ， 但 并 不 是 实际 的 行 志 。 


有 些 数据 库 绕 开 了 这 条 规则 , 提供 了 访问 数据 库 内 部 存储 细 市 的 扩展 SQL 语法 (比如 ,Oracle 
的 ROWNUM 伪 列 ， 或 者 PostgreSQL 中 的 0ID 列 ) 。 然 而 ， 这 些 数据 并 不 属于 关系 结构 。 


A.2 ”规范 化 的 神话 


很 难 再 找 出 一 个 像 规范 化 这 种 即使 有 精确 定义 依旧 被 广泛 误解 的 主题 。 实 际 生 许 中 ,你 肯定 
吉 到 过 相信 下 向 这 些 错误 理念 的 开发 人 员 。 


D“ 规 范 化 让 数据 库 更 慢 。 不 规 施 让 数据 库 更 快 。 
错 ! 的 确 ， 应 用 了 规范 化 之 后 ， 碍 询 时 可 能 需要 使 用 JOIN 从 多 张 分 开 的 表 中 获取 数据 ， 
而 不 规范 的 数据 能 够 避免 这 些 JOIN。 
比如 ， 在 第 2 半 中 使 用 逗号 分 割 的 列表 来 获取 Bug 相关 的 产品 。 但 如 采 我 们 同时 还 需要 
根据 指定 的 产品 歼 取 所 有 相关 的 Bug 呢 ? 非 规范 化 通 间 能 简化 或 者 提升 某 种 类 型 的 查询 ， 
但 应 用 在 别 的 奋 询 类 型 上 时 开销 束 很 大 。 
非 规范 化 也 有 合理 使 用 的 场景 ， 但 十 在 决定 使 用 它 时 ， 应 该 先 将 数据 库 设 计 成 标准 的 形 
式 。 第 13 革 中 的 MENTOR 规则 也 使 用 了 非 规范 化 。 请 记 住 ， 如 采 是 为 了 性 能 而 做 的 修 
改 ， 则 必须 在 修改 前 后 都 进行 性 能 测量 。 


0D “规范化 也 就 是 谤 将 数据 移 到 子 表 中 ， 然 后 使 用 伪 键 引用 它们 。 
错 ! 你 可 以 为 了 方便 、 性 能 或 者 存储 效益 等 所 有 合理 的 理由 而 使 用 伪 键 ， 但 别 认为 这 和 
规范 化 有 什么 关系 。 


D“ 规 泥 化 就 是 将 属性 尽 可 能 地 拆 分 开 ， 融 像 EAV 设计 那样 。 
错 ! 通 第 程序 员 会 误解 “ 规 放 化 ”这 个 词 ， 认 为 它 把 数据 弄 得 更 不 可 读 或 者 不 便于 查询 。 
而 事实 上， 真正 的 “规范 化 ”正好 与 之 相反 。 
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口 “ 设 人 需要 超过 第 三 范式 的 规范 化 标准 。 其 他 的 范式 都 太 上 狐 难 懂 ， 并 且 你 永 延 不 会 用 到 
它们 的 。 
错 ! 调查 表明 ， 超 过 20% 的 商业 数据 库 的 设计 满足 第 一 到 第 三 范 式 ， 但 违 育 第 四 范式 。 
虽然 这 个 量 看 上 去 比较 小 , 但 并 不 能 说 它 就 可 以 忽略 : 如 有 果 20% 的 程序 中 存在 将 在 的 Bug 
会 导致 数据 丢失 ， 你 会 不 想 解决 它 吗 ? 


A.3 什么 是 规范 化 
下 面 这 些 是 规范 化 的 目标 ; 


D 以 一 种 我 们 能 够 理解 的 方式 表达 这 个 世界 中 的 事物 ， 
OD 减少 数据 的 元 余 存 储 ， 防 止 异 第 或 者 不 一 致 的 数据 ， 
DD 文 持 完整 性 约束 。 


请 和 注意， 提高 数据 的 性 能 并 不 在 此 列表 中 。 规 范 化 有 助 于 我 们 正确 地 存储 数据 ， 避 免 陷 入 厅 
烦 。 当 数据 库 是 非 规范 化 的 时 候 ， 几 乎 不 可 避免 地 会 变 成 一 个 烂 挫 子 ,我 们 需要 编写 更 多 的 代码 
来 清理 不 一 致 的 或 者 重复 的 数据 , 最 终 我 们 会 因为 错误 数据 而 不 得 不 延期 项 目 以 及 投入 更 多 的 成 
本 。 如 采 将 所 有 这 些 场景 考 碟 进去 ， 融 更 容易 看 出 规范 化 所 市 来 的 效率 捉 升 。 

当 一 张 表 满足 规 纪 化 的 规则 时 ， 我 们 便 称 这 张 表 符 合 范 式 。 有 五 种 传统 的 式 ， 接 述 了 依次 
递 进 的 规 郊 化 每 级 。 每 种 式 消除 了 一 种 特定 类 型 的 元 余 或 者 异 肖 情况 。 通 第 来 说 ， 如 来 一 张 表 
的 设计 请 足 茶 一 层级 的 艺 式 ， 那 这 张 表 一 定 福 足 前 面 所 有 层级 的 艺 式 。 研 究 人 员 还 定义 了 这 五 种 
传统 邯 式 之 外 的 另外 三 种 苑 式 。 范 式 的 独 进 级 别 如 图 A-1 所 示 。 


CM OS WC ey, 


A-1 玫 式 渐进 级 别 

















A.3.1 第 一 范式 

第 一 范式 的 最 根本 要 求 是 , 该 表 必须 是 一 个 关系 。 如 果 它 不 符合 A.1 节 中 所 描述 的 关系 准则 ， 
那么 这 张 表 就 不 符合 第 一 范式 和 后 续 的 范式 。 

接 下 来 的 要 求 是 这 张 表 必须 没有 重复 组 合 。 请 记 住 ， 关 系 中 的 每 一 行 ， 都 是 从 多 个 集合 的 每 
一 个 集合 中 选 一 个 值 形 成 的 一 种 组 合 。 重 复 的 组 合 说 明 这 一 行 可 能 有 多 个 来 自 于 同一 个 集合 的 值 。 

我 们 曾经 见 过 两 个 创建 了 重复 组 合 的 反 模 式 。 

oO 第 8 章 在 多 个 列 中 出 现 了 来 自 同一 个 域 的 值 。 

oO 第 2 章 在 同一 列 中 有 多 个 值 。 
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从 图 A-2 中 可 以 看 到 这 两 个 反 模 式 中 的 重复 组 合 。 满足 第 一 疙 式 的 更 合理 的 设计 应 该 是 创建 
一 个 单独 的 表 ，tag 占用 单独 的 一 列 ， 并 且 通 过 每 行 存储 一 个 标签 来 支持 多 个 标签 的 存储 。 


tdqg 1] tag2 tag3 


gadh Multicolumn 


printing crash Attributes 
report crash 


tags 
crash Jaywalking 


printing, crash 
report,crash, data 





BugsTags 


tag 
crash 
printing 
crash 
report 


crash 








A.3.2 第 二 范式 


除了 复合 主键 之 外 ， 第 二 范式 和 第 一 范式 是 一 样 的 。 在 之 前 的 标签 例子 中 ,我 们 保持 跟踪 哪 
些 用 户 给 Bug 打上 了 特定 标签 ， 我 们 还 要 关注 是 谁 第 一 个 创造 了 某 一 个 标签 。 


Normalization/2NF-anti.sql 


CREATE TABLE BugsTags ( 
bug_id BIGINT NOT NULL, 
tag VARCHAR(20) NOT NULL ， 
tagger BIGINT NOT NULL ， 
coiner BIGINT NOT NULL ， 
PRIMARY KEY (bug_id, tag), 
FOREIGN KEY (bug_ id) REFERENCES BugsCbug id) ， 
FOREIGN KEY (tagger) REFERENCES Accounts(account 1d), 
FOREIGN KEY (coiner) REFERENCES Accounts(account_1d) 


在 图 A-3 中 ， 可 以 看 到 创造 者 标识 的 存储 是 元 余 的 。 这 意味 着 修改 了 某 一 个 tag (如 crash) 
的 创造 者 的 标识 ， 如 末 没 有 同步 所 有 相同 标签 的 行 ， 则 会 导致 数据 异常 。 








@ 此 图 使 用 用 户 名 字 而 非 ID 号 来 标识 用 户 
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tag tagger coiner 


crash Larry Shemp 
printing Larry Shemp 


eral Kae ‘Shan Redundancy 
report Moe Shemp 

crash Larry Shemp 

data Moe Shemp 

tag tagger coiner 

crash Larry Shemp 

printing Larry Shemp 

coh Mas Shieris Anomaly 


report Moe Shemp > 
crash Larry Curly 


data Moe Shemp 





BugsTags 


tag tag coiner 


crash crash Shemp 
:Re printing printing Shemp 


crash report Shemp 
report data Shemp 
crash 


data 





BugsTags Tags 


A-3 ” 郊 余 与 第 二 光 式 


为 了 满足 第 二 冰 式 ， 我 们 应 该 对 于 每 个 tag 只 存储 一 次 它 的 创造 者 。 也 就 古 说 ， 我 们 不 得 不 
哲 外 定义 一 张 表 Tags， 以 tag 作为 主键 , 这 样 每 一 个 tag 就 只 有 一 行 了。 接着 ,我 们 束 可 以 将 tag 
的 创造 者 从 BugsTags 表 里 移 到 这 张 表 中 ， 从 而 防止 了 异常 发 生 。 


Normalization/2NF-normal.sqgl 


CREATE TABLE Tags ( 

tag VARCHAR(20) PRIMARY KEY, 

coiner BIGINT NOT NULL, 

FOREIGN KEY (coiner) REFERENCES Accounts(account_1d) 
); 


CREATE TABLE BugsTags ( 
bug_1id BIGINT NOT NULL ， 
tag VARCHAR(20) NOT NULL ， 
tagger BIGINT NOT NULL ， 
PRIMARY KEY (bug_id, tag), 
FOREIGN KEY (bug_ 1d) REFERENCES Bugs (bug_1d), 
FOREIGN KEY (tag) REFERENCES Tags(tag), 
FOREICN KEY (tagger) REFERENCES Accounts(account_1d) 
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A.3.3 第 三 范式 
在 Bugs 这 张 表 中 ， 可 能 需要 记录 处 理 Bug 的 工程 师 的 E-mail。 


Normalization/3NF-anti.sql 


CREATE TABLE Bugs ( 
bug_1d SERIAL PRIMARY KEY 


assigned_to BIGINT ， 
assigned email VARCHAR(100), 
FOREICN KEY (assigned to) REFERENCES Accounts(account_1d) 


2 
然而 ,E-maill 是 这 个 被 分 配 任务 的 工程 师 账号 的 一 个 属性 ， 并 不 是 Bug 的 属性 。 以 这 种 形式 
存储 E-mail 就 是 元 余 的 ， 并 且 我 们 需要 面 对 之 前 不 福 足 第 二 纯 式 时 产生 的 那 种 风险 。 


第 二 苑 式 例子 中 的 那个 犯规 的 列 至 少 还 部 分 和 复合 主键 相关 ， 而 在 第 三 范式 的 这 个 例子 中 ， 
E-mail 这 一 列 和 主键 束 没 有 一 点 关联 本。 


要 解决 这 一 问题 , 我 们 需要 将 E-mail 地 址 放 到 Accounts 表 中 。 图 A-4 显示 了 如 何 拆 分 Bugs 
表 。 由 于 在 Accounts 表 中 的 E-mail 是 直接 和 主键 关联 而 没有 克 余 的 ， 因 而 这 才 是 E-mail 的 合适 
位 置 。 





assigned_to assigned_emoail 


Larry larry@example.com Redundancy 
Moe moe@example.com 

Moe moe@example.com 

assigned_to assigned_email 

Larry larry@example.com Anomaly 


Moe moe@example.com 
Moe curly@example.com 





Bugs 


assigned_to account_id email 


第 三 范式 Larry Larry larry@example.com 


Moe Moe moe@example.com 


Moe 





Bugs Accounts 


图 A-4 ”元 余 与 第 三 范式 
A.3.4 博 伊 斯 - 科 德 范式 
比 第 三 范式 稍微 严格 一 点 的 范 式 版 本 称 为 博 伊 斯 - 科 德 泥 式 。 这 两 个 缉 式 之 间 的 不 同 之 处 在 
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于 ,在 第 三 泡 式 中 ， i ee 文 张 表 中 的 关键 字 列 ， 而 在 博 伊 斯 - 科 
德 范 式 中 , 所 有 关键 字 列 也 必须 遵循 这 一 规则 , 这 一 点 在 一 张 表 有 多 种 列 的 集合 可 作为 表 的 关键 
字 时 才 有 效 。 


比如 ， 我 们 有 三 种 Tag 类 型 : 摘 述 Bug 所 造成 影 啊 的 tag， 接 述 Bug 影 啊 子 系统 的 tag， 以 
及 Bug 修 复 状 态 的 tag。 每 一 个 Bug 对 于 每 一 种 Tag 类 型 只 能 有 一 个 tag。 可 能 的 键 组 合 包括 bug_id 
加 上 tag， 或 者 bug_id 加 上 tag_type。 这 两 种 组 合 都 应 该 足够 定位 每 一 个 独立 的 行 。 


在 图 A-5 中 ， 可 以 看 到 一 个 满足 第 三 艺 式 但 是 不 并 足 博 伊 斯 - 科 德 范 式 的 表 ， 以 及 如 何 修改 
才能 让 它 请 足 博 伊 斯 - 科 德 犯 式 。 





tag tag_type 
crash impact Multiple 


printing subsystem - 
crash impact Candidate 


report subsystem Keys 
crash impact 
data fix 


tag tag_type 
crash impact 
printing subsystem 
crash impact Anomaly 

report subsystem 

crash subsystem 

data fix 





BugsTags 


tag tag tag_type 
crash crash impact 
博 伊 斯 - printing printing subsystem 
科 德 范式 crash report subsystem 
ER 
report data fix 


crash 
data 





BugsTags Tags 


A-5 第 三 范式 与 博 伊 斯 - 科 德 范 式 
A.3.5 ”第 四 范式 


现在 ,我 们 需要 修改 数据 库 ， 以 支持 多 个 用 户 报 告 同一 个 Bug， 并 分 配给 多 个 开发 工程 师 ， 
然后 由 多 个 质量 工程 师 验 证 。 我 们 知音 多 对 多 的 关系 需要 一 张 额 外 的 表 : 


Normalization/ANF-anti.sql 


CREATE TABLE BugsAccounts ( 
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bug_id BIGINT NOT NULL ， 

reported by BIGINT, 

assigned to BIGINT, 

verified by BIGINT, 

FOREIGN KEY (bug_ id) REFERENCES BugsCbug id) ， 

FOREION KEY (reported by) REFERENCES Accounts(Caccount_ 1d) ， 

FOREION KEY (assigned to) REFERENCES Accounts(account_ 1d) ， 

FOREIGN KEY (verified by) REFERENCES Accounts(account_1id) 
J 


我 们 不 能 单独 使 用 bug_id 作为 主键 。 每 个 Bug 需要 多 行 数 据 来 实现 各 个 字段 都 文 持 多 个 账 
号 的 目的 。 也 不 能 将 前 两 列 或 者 前 三 列 作为 复合 主键 ， 因 为 这 样 ， 最 后 一 列 依旧 不 支持 多 个 值 。 
因此 ， 主 键 必 须 是 由 所 有 四 列 组 成 。 然 而 ，assigned_to 和 verified_by 需要 可 以 为 空 ， 因 为 
Bug 在 被 指派 和 验证 之 前 是 可 以 报 各 的 。 而 标准 情况 下 ， 所 有 的 主键 列 都 有 一 个 非 空 的 约束 。 


男 一 同 题 就 是 当 某 一 列 的 账号 数 小 于 其 他 列 时 , 就 会 造成 数据 元 余 。 图 A-6 显示 了 这 种 元 余 。 


reported_by assigned_to verified_by 


Zeppo NULL NULL Redundancy 
Chico Groucho Harpo 
Chico Spalding Harpo NULLs, 

Chico Groucho NULL No Primary Key 


Zeppo Groucho NULL 
Gummo Groucho NULL 


BugsAccounts 





reported_by assigned_to 


bug_id verified_by 


Zeppo Groucho 
Chico Spalding 


3456 Harpo 


Chico Groucho 
Zeppo 


Gummo 





BugsReported BugsAssigned BugsVerified 


A-6 合并 关系 与 第 四 苑 式 


上 面 提出 的 这 些 问 题 都 征 由 于 创建 了 一 张 做 了 双 倍 或 者 三 倍 工作 的 交叉 表 。 当 答 试 使 用 一 张 
交叉 表 摘 述 多 个 多 对 多 关系 时 ， 就 会 违 衣 第 四 范 式 。 


A-6 展示 了 我 们 可 以 拆 分 这 张 表 来 解决 问题 。 我们 应 该 为 每 一 种 多 对 多 关系 使 用 一 张 单独 
的 交 又 表 ， 这 就 解决 了 元 余 和 数量 不 匹配 的 问题 。 
Normalization/4ANF-normal.sql 


CREATE TABLE BugsReported ( 
bug_1d BIGINT NOT NULL ， 
reported by BIGINT NOT NULL ， 
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PRIMARY KEY (bug_1id, reported_by), 

FOREIGN KEY (bug_1id) REFERENCES Bugs (bug_1id), 

FOREIGCN KEY (reported by) REFERENCES Accounts(account_1d) 
a 
CREATE TABLE BugsAssigned ( 

bug_id BIGINT NOT NULL ， 

assigned to BIGINT NOT NULL ， 

PRIMARY KEY (bug_id, assigned _ to) ， 

FOREIGN KEY (bug_ id) REFERENCES Bugs (bug_1id), 

FOREIGN KEY (assigned to) REFERENCES Accounts(account_1d) 
); 


CREATE TABLE BugsVerified ( 

bug_id BIGINT NOT NULL, 

verified by BIGINT NOT NULL ， 

PRIMARY KEY (bug_id, verified_by), 

FOREIGN KEY (bug_ id) REFERENCES Bugs (bug_1id), 

FOREIGN KEY (verified by) REFERENCES Accounts(Caccount_1id) 
); 


A.3.6 第 五 范式 

任何 满足 博 伊 斯 - 科 德 范式 并 且 没 有 复合 主键 的 表 将 同时 满足 第 五 范式 。 我 们 可 以 通过 下 面 
的 这 个 例子 来 更 好 地 理解 第 五 范式 。 

有 些 工 程 师 只 为 儿 个 产品 服务 。 我 们 应 该 将 数据 库 设 计 成 让 我 们 了 解 谁 在 为 哪些 产品 服务 ， 
以 及 在 修复 哪些 Bug， 并 且 最 小 化 数据 的 元 余 。 首 先 我 们 会 想到 在 BugsAssigned 表 中 增加 一 列 
来 展示 是 哪个 工程 师 在 处 理 


Normalization/S5NF-anti.sql 





CREATE TABLE BugsAssigned ( 

bug_id BIGINT NOT NULL, 

assigned to BIGINT NOT NULL ， 

product_ id BIGINT NOT NULL ， 

PRIMARY KEY (bug_id, assigned _ to) ， 

FOREIGN KEY (bug_ id) REFERENCES Bugs (bug_1id), 

FOREIGN KEY (assigned to) REFERENCES Accounts(account_1id), 

FOREIGCN KEY (product_ 1d) REFERENCES Products(product_1d) 
De- 


但 这 不 足以 告诉 我 们 这 个 工程 师 可 以 被 指派 为 哪些 产品 服务 , 它 只 表明 了 这 个 工程 师 当 前 被 
指派 去 服务 哪些 产品 ， 同 时 ， 这 么 做 也 造成 了 重复 的 存储 。 这 征 由 于 想 在 一 张 表 中 存储 多 种 独立 
的 多 对 多 关系 而 产生 的 ， 就 像 我们 在 第 四 范式 中 所 看 到 的 问题 一 样 。 图 A-7 描述 了 这 种 元 余 。” 


@ 图 中 使 用 了 用 户 名 字 而 不 是 ID。 
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assigned_to product_id 


Groucho Open RoundFile Redundancy, 


Spalding Open RoundFile Multiple Facts 
Groucho Open RoundFile 





BugsAssigned 


assigned_io account_id “ product_id 


Groucho Groucho Open RoundFile 
Spalding Groucho ReConsider 


Groucho Spalding Open RoundFile 
Spalding Visual Turbo Builder 





BugsAssigned EngineerProducts 
A-7 合并 关系 与 第 五 泡 式 
我 们 的 解决 方案 是 将 每 个 关系 都 分 别 放 到 不 同 的 表 中 


Normalization/5NF-normal.sqgl 


CREATE TABLE BugsAssigned ( 

bug_id BIGINT NOT NULL ， 

assigned to BIGINT NOT NULL ， 

PRIMARY KEY (bug_id, assigned _ to) ， 

FOREIGN KEY (bug_ id) REFERENCES BugskCbug id) ， 

FOREIGN KEY (assigned to) REFERENCES Accounts(account_1d), 

FOREION KEY (product_ 1d) REFERENCES ProductsCproduct 1d) 
J 


CREATE TABLE EngineerProducts ( 
account_id BIGINT NOT NULL ， 
product_id BIGINT NOT NULL, 
PRIMARY KEY (account_id, product_1d), 
FOREIGN KEY (account 1d) REFERENCES Accounts(account 1d), 
FOREION KEY (product _ 1d) REFERENCES Products(product_1d) 
7 
现在 我 们 可 以 记录 某 个 工程 师 能 为 哪个 产品 服务 , 而 不 依赖 于 这 个 工程 师 是 否 正在 为 那个 产 
品 的 Bug 努 


A.3.7 更 多 的 范式 
DK 范式 (Domain-Key normal form) 认为 表 上 的 每 个 约束 都 是 这 张 表 的 数据 域 约束 和 关键 字 
约束 的 逻辑 结果 。DK 范式 涵盖 了 第 三 、 四 、 五 范式 和 博 伊 斯 - 科 德 范式 。 


比如 说 ， 一 个 状态 为 NEW 或 者 DUPLICATE 的 Bug 应 该 是 没有 任何 工作 量 的 ， 因 此 应 该 没 
有 工作 时 间 记 录 , 也 不 需 要 全 verified_by 列 中 指派 质量 工程 师 。 可 能 的 实现 方法 是 使 用 一 个 触 
发 右 或 者 一 个 CHECK 约束 。 这些 邦 是 建 在 表 的 非 关 键 字 列 上 的 约束 ， 因 而 它们 并 不 符合 DK 范式 
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的 标准 。 
第 六 范式 旨 在 消除 所 有 的 联结 依赖 ， 它 通 铺 用 来 支持 属性 的 变更 历史 。 比 如 ,我 们 可 能 想 要 
在 一 张 子 表 中 记录 下 Bugs .status 随 着 时 间 推 移 产 生 的 变化 : 何 时 发 生 的 变更 ， 谁 做 的 变更 ,以 
及 其 他 可 能 的 细 市 。 
可 以 想象 ， 如 果 让 Bugs 这 张 表 满 足 第 六 冰 式 ， 几 平 每 一 列 都 需要 附带 一 个 历史 记录 表 。 这 
会 导致 表 的 数量 过 多 。 第 六 汇 式 对 于 大 多 数 程 序 来 说 都 是 没有 必要 有 的, 但 一 些 数 据 仓库 技术 里 会 
使 用 到 第 六 范式 。” 





A.4 常识 
规范 化 规则 并 不 深奥 或 者 复杂 。 它 们 只 是 减少 元 余 和 提高 数据 一 致 性 的 惯用 技术 方法 。 


你 可 以 使 用 这 份 关于 关系 和 沧 式 的 简单 参考 资料 , 来 帮助 自己 在 未 来 的 项 目 中 更 好 地 设计 数 
据 库 。 








Q@ 比如 ，Anchor Modeling 就 是 用 了 第 六 范式 (http:/www.anchormodeling.com ) 。 
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SQL ld yi Avoiding the Pitfalls of Database Programming 





SQL 及 模式 


多 数 软件 开发 人 员 并 不 是 SQL 专 家 ,很 多 人 对 SQL 的 错误 使 用 更 使 其 效率 低 且 难以 维护 。 本 书 针对 SQL 使 用 中 经 常 犯 的 错误 
展开 分 析 ， 从 数据 库 的 逻辑 设计 、 物 理 设计 、 查 询 设计 、 应 用 开发 几 个 方面 总 结 归 纳 各 种 典型 错误 ， 提 出 避免 陷阱 的 方法 。 作 为 
一 本 经 验 总 结 性 的 著作 ， 本 书 是 数据 库 编程 人 员 不 可 或 缺 的 手边 书 。 你 也 会 学 到 最 新 的 全 文 搜索 技术 ， 设计 出 可 以 防范 SQL 注 入 
的 代码 ， 掌 握 其 他 非常 实用 的 使 用 技巧 。 


“我 是 最 佳 实践 的 最 坚定 拥护 者 ， 因 为 我 喜欢 从 别人 的 错误 中 吸取 教训 。 这 本 书 广泛 收集 人 们 犯 过 的 销 误 ， 令 我 吃惊 的 是 ， 
有 些 也 是 我 犯 过 的 。 我 真 后 悔 没有 早点 读 这 本 书 。” 
一 一 Marcus Adams， 资 深 软 件 工程 师 


“比尔 写 的 是 一 本 引人入胜 、 实 用 、 重 要 而 独一无二 的 书 。 书 中 描述 的 反 模式 与 解决 方案 让 软件 开发 人 员 实 实在 在 地 受益 ， 
我 马上 就 使 用 了 书 中 的 技巧 改善 了 我 的 应 用 程序 。 了 不 起 的 作品 ! ” 
一 一 Frederic Daoud, 
Sinpes ...And Java Web Development ls Fun Again 与 Gethng Started with apache Click 的 作者 


“很 明显 ， 本 书 是 经 年 累 月 的 SQL 数据 库 实 践 经验 的 结晶 ， 书 中 每 一 个 话题 的 深度 与 对 细节 的 把 握 远 超出 我 的 预期 。 虽 然 本 
书 不 是 为 初学 者 而 写 ， 但 是 任何 有 一 定 SQL 经 验 的 开发 人 员 都 会 发 现 这 是 一 本 有 价值 的 参考 书 ， 都 能 从 中 发 现 新 的 收获 。” 
一 一 Mike Naberezny， 
Maintainable Software 合 伙 人 , Rails for PHP Developers 作 者 之 一 


“ 书 中 满 是 非常 实用 的 建议 ， 出 版 时 机 也 恰好 。 当 大 家 都 在 关注 看 起 来 不 错 的 新 玩意 时 ， 专 业 人 员 刚 好 有 机 会 用 本 书 提升 他 
们 的 SQL 功力 。” 


一 一 Maik Schmidt， 
Enterprise Recipes with Ruby and Rails 和 Enterprise Integration with Ruby 作 者 
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